Множественное выравнивание последовательностей белков.

1-2. Сравнение выравнивания одних и тех же последовательностей разными программами.

Для сравнения была взята мнемоника человеческого белка: CYSG(Siroheme synthase).С помощью BLAST были найдены находки(наиболее близкородственные полипротеины), из организмов:Bordetella avium 197N, Bordetella pertussis Tohama I, Bordetella petrii DSM 12804, Aeromonas hydrophila subsp. hydrophila ATCC 7966, Bordetella avium 197N, Bordetella pertussis Tohama I. Было построено MSA с помощью программ: Muscle/Mafft , Tcofee/MSAprobs , а для них подсчитано количество выровненных позициций с помощью скрипта Лизы Плешко.

Для пары Muscle/Mafft количество выровненных позиций для Muscle: 93%, для Mafft: 92% и таблица Table1 Для Tcofee/MSAprobs у обоих получилось 95% и таблица Table2

Во втором случае совпадение больше, так как там меньше инделей(или гэпов), что объяснятеся различными алгоритмами используемыми программами множественного выраванивания.

3. Семейство Pfam которое было выбрано: PF06321(P_gingi_FimA). PDB ID: 3LIU,4JG5,3UP6. Далее в PDB Pairwise Structure Alignment было произведено парное выравнивание 3LIU с 4JG5(см рис.1), а потом 3LIU с 3UP6(см рис.2).

3LIU с 4JG5.
Рис.1. 3LIU(красный) с 4JG5(синий).
LIU с 3UP6.
Рис.2. LIU(малиновый) с 3UP6(синий).

Далее были скачаны соответсвующие парные выравнивания и визуализированы в JalView (раскраска Clustal) Выравивания. Верхние два окна - парные выравнивания по отдельности, нижнее левое - они же совмещенные (в дальнейшем- окно3). Как видно в окне 3, первое выравнивание 3LIU с 3UP6 начинается на одну пару аминокислот раньше, и заканчивается на несколько пар аминокислот позже, что вообще говорит о том, что сравниваемые белки с 3LIU не очень хорошо совпадают пространственно(что прослеживание и на рис.2 по сравнению с рис.1 где наложение лучше). Правда из данных JalView сложно сказать кто лучше пространственно "накладывается" на 3LIU, но визуализация в PDB Pairwise Structure Alignment показывает что это пара на рис.1. Вообще данное выравнивание считаю неудачным, так как много гэпов и инделей и мало совпадений.

В правом нижнем углу файла JalView выше, предствлено MSA всех 3х белков, и судя по окраске CLustal, оно гораздо лучше парного из PDB.

4. Описание одной из программ MSA.

T-coffee - это программа множественного выраванивания, подходящая для большинства типов биологических последовательностей. Что очень важно - здесь используется метод прогрессивного выравнивания (иерархического), то есть сначала строится эволюционное дерево, где листья - это последовательности, близкие листья - близкие последовательности, и далее строится выравнивание только близких последовательностей - составляется так называемая библиотека, после чего строится, а далее алгоритм пытается сгенерировать множественное выравнивание с наименьшим весом. Набор последовательностей ведётся из таких баз дынных как BLAST, FASTA или Smith and Waterman.

В T-coffee есть разные режимы для выраваниваний, например для proteins - espresso, m-cofee, PSI/TM-coffee(Трансмембранные белки), РНК - R-coffee, CAPA-coffee, ДНК - М-cofee, Pro-coffee.

Reference: Тут и И тут.