A picture of DNA should be here

Построение множественного выравнивания. Pfam

Для выполнения практикума, я воспользовалась резулятатами практикума по PSI-Blast, исходные последовательности в fasta формате вы можете найти здесь. Я старалась выбрать последовательности, обладающие покрытием 80-95 %, с идентичностью около 50-60% и достаточно достоверные (c E-value < 1e-5).

Для начала я построила множественные выравнивания выбранных последовательностей:

1) с помощью программы muscle. Файл с результатом вы можете найти здесь. Команда Linux для запуска программы:

muscle -in sequence.fasta -out align_muscle.fasta

2) с помощью программы maft. Файл с результатом вы можете найти здесь. Команда Linux для запуска программы:

mafft sequence.fasta > align_maft.fasta

Для исследование различий в построении множественного выравнивания, я совместила оба выравнивания в одном окне JalView и выбрала покраску ClustalX. Проект JalView

На рис.1 (участок совмещенного выравнивания) видно, что выравнивания на позициях 1-104 очень похожи, а c позиции 105 начинается некое расхождение из-за гэпа в выравнивании maft, что приводит к сдвигу несовпадению выравниваний в позициях 105-197 (см. рис.2)

Рис. 1 Участок совмещенного выравнивания. Первые 8 строк - выравнивание программой muscle, последние 8 (после красной пунктирной линии) - выравнивание maft. На позициях 1-104 наблюдается значительное сходство выравниваний

Рис. 2 Участок совмещенного выравнивания. Первые 8 строк - выравнивание программой muscle, последние 8 (после красной пунктирной линии) - выравнивание maft. На позициях 105-197 сходства не наблюдается из-за сдвига выравнивания maft в позициях 106-108, а так же 134-135.

Но, сдвинув выравнивание maft на 5 позиций влево, я добилась значительного сходства выравниваний на позициях во второй половине (см. рис 3), из чего следует, что выравнивания обладают значительным сходством, но различаются в количестве гэпов.

Рис. 2 Участок совмещенного выравнивания после сдвига на 5 позиций влево. Первые 8 строк - выравнивание программой muscle, последние 8 (после красной пунктирной линии) - выравнивание maft. На позициях 105 -197 наблюдается значительное сходство, отсутствовавшее ранее.

Далее, я определила, домены каких Pfam-семейств встречаются в исходной последовательности. Для моей последовательности было найдено 1 Pfam-A совпадение и ни одного Pfam-B (выравнивание можно скачать тут). Также благодаря базе данных Pfam я узнала, что мой белок относится к семейству BaffR-Tall_bind (PF09256). Белки этого семейства, которые в подавляющем большинстве находятся в члене 13c, BAFF-R, суперсемейства факторов некроза опухоли, необходимы для связывания с лигандом фактора некроза опухоли TALL-1. Выравнивание seed для данного семейства вы можете скачать здесь.