
Для выполнения практикума, я воспользовалась резулятатами практикума по PSI-Blast, исходные последовательности в fasta формате вы можете найти здесь. Я старалась выбрать последовательности, обладающие покрытием 80-95 %, с идентичностью около 50-60% и достаточно достоверные (c E-value < 1e-5).
Для начала я построила множественные выравнивания выбранных последовательностей:
1) с помощью программы muscle. Файл с результатом вы можете найти здесь. Команда Linux для запуска программы:
muscle -in sequence.fasta -out align_muscle.fasta
2) с помощью программы maft. Файл с результатом вы можете найти здесь. Команда Linux для запуска программы:
mafft sequence.fasta > align_maft.fasta
Для исследование различий в построении множественного выравнивания, я совместила оба выравнивания в одном окне JalView и выбрала покраску ClustalX. Проект JalView
На рис.1 (участок совмещенного выравнивания) видно, что выравнивания на позициях 1-104 очень похожи, а c позиции 105 начинается некое расхождение из-за гэпа в выравнивании maft, что приводит к сдвигу несовпадению выравниваний в позициях 105-197 (см. рис.2)
Рис. 1 Участок совмещенного выравнивания. Первые 8 строк - выравнивание программой muscle, последние 8 (после красной пунктирной линии) - выравнивание maft. На позициях 1-104 наблюдается значительное сходство выравниваний
Рис. 2 Участок совмещенного выравнивания. Первые 8 строк - выравнивание программой muscle, последние 8 (после красной пунктирной линии) - выравнивание maft. На позициях 105-197 сходства не наблюдается из-за сдвига выравнивания maft в позициях 106-108, а так же 134-135.
Но, сдвинув выравнивание maft на 5 позиций влево, я добилась значительного сходства выравниваний на позициях во второй половине (см. рис 3), из чего следует, что выравнивания обладают значительным сходством, но различаются в количестве гэпов.
Рис. 2 Участок совмещенного выравнивания после сдвига на 5 позиций влево. Первые 8 строк - выравнивание программой muscle, последние 8 (после красной пунктирной линии) - выравнивание maft. На позициях 105 -197 наблюдается значительное сходство, отсутствовавшее ранее.
Далее, я определила, домены каких Pfam-семейств встречаются в исходной последовательности. Для моей последовательности было найдено 1 Pfam-A совпадение и ни одного Pfam-B (выравнивание можно скачать тут). Также благодаря базе данных Pfam я узнала, что мой белок относится к семейству BaffR-Tall_bind (PF09256). Белки этого семейства, которые в подавляющем большинстве находятся в члене 13c, BAFF-R, суперсемейства факторов некроза опухоли, необходимы для связывания с лигандом фактора некроза опухоли TALL-1. Выравнивание seed для данного семейства вы можете скачать здесь.