Занятие 9. Построение множественного выравнивания

  1. Создали файл с аминокислотными последовательностями гомологичных белков

    Полученный файл all.fasta.
  2. Построили множественное выравнивание созданной выборки гомологичных последовательностей с помощью программы emma( реализация алгоритма ClustalW в пакете EMBOSS) и программы muscle (алгоритм MUSCLE).

    Получили файлы emma_res.aln и muscle_res.fasta Среди них GLPK_SHILP, GLPK_HALHL, GLPK_BURCA, GLPK_XYLFT, GLPK_STRSV, GLPK_MYCPU есть в бактериях, но GLPK_CAEEL в бактериях не встречается, следовательно выборка не вполне отвечает требованиям.
  3. Исследуем одно множественное выравнивание с помощью инструментов Genedoc.

    Импортируем выравнивание, полученное с помощью emma, в Genedoc.
    Посмотрели, выглядит красиво.
    Изменим конфигурацию проекта так, чтобы цветом были выделены только самые консервативные колонки выравнивания, консервативные на 100% — красным, а на 70% — темно-голубым.
    Получилось 114 колонок консервативных на 100% и 134 на 70%
    Выраженного консервативного фрагмента нет, подряд идут не более 4х консервативных колонок
    С помощью меню "Reports" получили матрицу попарной идентичности последовательностей - report.txt
  4. Сравним два полученных выравнивания с помощью программы Genedoc

    Для этого откроем оба выравнивания в GeneDoc и поставим независимую раскраску
    Получили файл emma_muscle.html
    Вся первая пололвина выравниваний идентична (несимметричность объясняется тем, что последовательности стоят в разном порядке), только в одном месте в выравнивании muscle есть дополнительный гэп, что добавляет консервативных столбцов и все остальные позиции оказываются сдвинутыми относительно выравнивания emma. Таким образом выравнивания практически идентичны, но muscle все же несколько лучше (консервативных на 100% столбцов столько же, а консервативных на 70% на 4 больше)
  5. Сравним попарное выравнивание, порожденное множественным, с оптимальным попарным выравниванием

    Рассмотрим матрицу попарной идентичности, выберем две наиболее непохожие последовательности - GLPK_HALHL и GLPK_CAEEL
    Cкопируем их из исходного файла all.fasta в отдельные файлы, к началу имени последовательности добавьте 'o'.
    Получим файлы GLPK_HALHL.fasta и GLPK_CAEEL.fasta
    Получим оптимальное попарное выравнивание выбранных последовательностей с помощью программы needle на сервере kodomo-count
    для того, чтобы потом импортировать выравнивание в GeneDoc, используем -aformat fasta.

    В Genedoc и удалите все лишние последовательности , оставив из каждого выравнивания только пару выбранных последовательностей.
    Получим независимую раскраску консервативных позиций в 3-х группах. Получим файл 3.html
    Замечаем, что в первлй половине все три выравнивания очень похожи, потом появляется сдвиг, но все равно все консервативные колонки из множественных выравниваний сохраняются в парном. При подсчете видно, что в парном выравнивании консервативных столбцов больше (emma - 200, muscle - 206, needle - 207).


©Маврин Сергей,2007