Занятие 9. Построение множественного выравнивания

Создали файл с аминокислотными последовательностями гомологичных белков
Полученный файл all.fasta.
Построили множественное выравнивание созданной выборки гомологичных последовательностей с помощью программы emma( реализация алгоритма ClustalW в пакете EMBOSS) и программы muscle (алгоритм MUSCLE).
Получили файлы emma_res.aln и muscle_res.fasta Среди них GLPK_SHILP, GLPK_HALHL, GLPK_BURCA, GLPK_XYLFT, GLPK_STRSV, GLPK_MYCPU есть в бактериях, но GLPK_CAEEL в бактериях не встречается, следовательно выборка не вполне отвечает требованиям.
Исследуем одно множественное выравнивание с помощью инструментов Genedoc.
Импортируем выравнивание, полученное с помощью emma, в Genedoc.
Посмотрели, выглядит красиво.
Изменим конфигурацию проекта так, чтобы цветом были выделены только самые консервативные колонки выравнивания, консервативные на 100% — красным, а на 70% — темно-голубым.
Получилось 114 колонок консервативных на 100% и 134 на 70%
Выраженного консервативного фрагмента нет, подряд идут не более 4х консервативных колонок
С помощью меню "Reports" получили матрицу попарной идентичности последовательностей - report.txt
Сравним два полученных выравнивания с помощью программы Genedoc
Для этого откроем оба выравнивания в GeneDoc и поставим независимую раскраску
Получили файл emma_muscle.html
Вся первая пололвина выравниваний идентична (несимметричность объясняется тем, что последовательности стоят в разном порядке), только в одном месте в выравнивании muscle есть дополнительный гэп, что добавляет консервативных столбцов и все остальные позиции оказываются сдвинутыми относительно выравнивания emma. Таким образом выравнивания практически идентичны, но muscle все же несколько лучше (консервативных на 100% столбцов столько же, а консервативных на 70% на 4 больше)
Сравним попарное выравнивание, порожденное множественным, с оптимальным попарным выравниванием
Рассмотрим матрицу попарной идентичности, выберем две наиболее непохожие последовательности - GLPK_HALHL и GLPK_CAEEL
Cкопируем их из исходного файла all.fasta в отдельные файлы, к началу имени последовательности добавьте 'o'.
Получим файлы GLPK_HALHL.fasta и GLPK_CAEEL.fasta
Получим оптимальное попарное выравнивание выбранных последовательностей с помощью программы needle на сервере kodomo-count
для того, чтобы потом импортировать выравнивание в GeneDoc, используем -aformat fasta.

В Genedoc и удалите все лишние последовательности , оставив из каждого выравнивания только пару выбранных последовательностей.
Получим независимую раскраску консервативных позиций в 3-х группах. Получим файл 3.html
Замечаем, что в первлй половине все три выравнивания очень похожи, потом появляется сдвиг, но все равно все консервативные колонки из множественных выравниваний сохраняются в парном. При подсчете видно, что в парном выравнивании консервативных столбцов больше (emma - 200, muscle - 206, needle - 207).

Занятие 9. Построение множественного выравнивания

Создали файл с аминокислотными последовательностями гомологичных белков

Исследуем одно множественное выравнивание с помощью инструментов Genedoc.

Сравним два полученных выравнивания с помощью программы Genedoc

Сравним попарное выравнивание, порожденное множественным, с оптимальным попарным выравниванием