В качестве последовательности для выравнивания был взят маннозный рецептор человека, расположенный на поверхности макрофагов (MRC1). Данный белок распознаёт концевые остатки маннозы, N-Ацетилглюкозамина и фукозы на гликановых цепочках белков. После этого я осуществил поиск гомологов белка через BLAST на сайте NCBI. В выравнивание вошел данный рецептор и 12 находок BLAST с наибольшим E-Value. Выравнивание проводилось в MSA-программах Mafft, Muscle и Tcoffee. Из таблицы результатов сравнения программ на Balibase следует, что Muscle является наиболее быстрой из рассматриваемых программ (total time — 789 сек, в то время как у Mafft и T-Coffee total time 1475 и 81141 сек соотвественно). При самом высоком времени работы T-Coffee не является самой точной программой (Avg. Score = 0.551), по этому показателю лидирует MAFFT (Avg. Score = 0.588), самая быстрая из программ, Muscle, имеет наименьший средний вес, равный 0.475. Я сравнивал выравнивания с помощью скрипта на Python, результаты занесены в таблицу. Всего сравнения два: Mafft с Muscle и Mafft с T-Coffee.
Доля одинаково выравненных позиций в первом выравнивании: 0.59
Доля одинаково выравненных позиций во втором выравнивании: 0.61
Консервативных блоков очень много, они разделены короткими несовпадающими блоками (зачастую, длины в 3-5 аминокислот), в связи с этим в отчете приведу большие блоки (включающие в себя несколько консервативных блоков), разделенные сравнительно длинными блоками из несовпадающих аминокислот или гэпов: (56,137)=(49,130), (178,350)=(170,342), (359,390)=(350,381), (401,541)=(392,532),(554,581)=(544,571),(597,696)=(585,684),(726,776)=(704,754),(800,824)=(778,802),(840,849)=(816,825),(873,889)=(849,865),(911,981)=(887,957),(1011,1054)=(981,1022),(1068,1086)=(1035,1053),(1094,1138)=(1061,1105),(1148,1163)=(1115,1130),(1186,1122)=(1150,1186),(1246,1362)=(1203,1319),(1379,1481)=(1334,1436),(1638,1659)=(1592,1613),(1827,1864)=(1775,1812),(1879,1913)=(1827,1861)
Большие неконсервативные участки: (1482,1637)=(1437,1591),(1660,1820)=(1614,1768)
Между выравниваниями можно увидеть большое сходство не только в блоках с аминокислотами, но и в участках с инделем. На мой взгляд, выравнивание T-Coffee ближе к эволюционно правильному в начале, но уступает выравниванию Mafft в конце на двух участках с гэпами: там программа не заметила много явно идентичных друг другу аминокислот и отнесла их в другую колонку (например, пролины из 1769 явно должны стоять в одной колонке с пролинами из 1765 или 1762).
Доля одинаково выравненных позиций в первом выравнивании: 0.62
Доля одинаково выравненных позиций во втором выравнивании: 0.64
Как и в прошлом случае имеет смысл приводить большие блоки (включающие в себя несколько консервативных подблоков), если консервативные подблоки разделены малым количеством колонок.
Нек. консервативные блоки: (57,70)=(53,66), (90,141)=(86,137), (178,350)=(168,340), (369,396)=(357,384), (405,541)=(393,529), (562,693)=(547,678), (726,776)=(701,751), (800,824)=(775,799), (841,889)=(814,862), (911,981)=(884,954), (1016,137)=(983,130), …, (1148,137)=(1164,1129), (1186,1222)=(1148,1184), (1245,1361)=(1200,1316),…, (1409,1481)=(1361,1433), (1625,1660)=(1577,1612), (1828,1866)=(1772,1810), (1878,1913)=(1822,1857)
Большие неконсервативные участки: (1482,1624)=(1434,1576), (1661,1827)=(1613,1771)
Выравнивания очень схожи друг с другом. В целом, работа Muscle в данном случае очень схожа с работой T-Coffee, с той лишь разницей, что Muscle начальный участок выравнивания Muscle почти не отличается от участка Mafft, в то время как у T-Coffee его получилось выровнять лучше. Там, где T-Coffee допускала ошибки (взять хотя бы те же пролины) Muscle допускает их тоже. Таким образом, выравнивание Mafft в данном случае имеет большую значимость.
Выравнивания, сделанные разными MSA программами, различны, ведь построены с использованием разных алгоритмов. В консервативных участках все программы дают почти одинаковый результат, в то время как в менее схожих участках выравнивания получаются разными. За быстрое время работы Muscle приходится платить точностью результата. T-Coffee отстаёт от MAFFT в скорости, но при этом не превосходит его в точности. Для поиска выравнивания, отражающего ход эволюции, я бы применял Mafft.
Для этого задания я выбрал семейство белков PF00019 (Transforming growth factor beta like domain). Семейство включает в себя многофункциональные пептиды, которые контролируют пролиферацию, дифференцировку и другие функции во многих типах клеток. Для выравнивания были отобраны белки с известной 3D-структурой: TGFB1_HUMAN, GDNF_RAT и BMP7_HUMAN. Первое выравнивание я делал в pymol при помощи функции align. Второе выравнивание делалось при помощи MSA Mafft.
Выравнивания очень сильно отличаются между собой. В них отсутствуют четко выраженные консервативные позиции. Совпадающих колонок очень мало, совпадение только на уровне фрагментов не из всех последовательностей (например, (128,129)=(562),(564) (по цистеинам)). Оба выравнивания содержат большое число гэпов и продолжительные индели. Это связано как с тем, что вторая последовательность длиннее двух других, так и с тем, что белки достаточно сильно отличаются друг от друга по структуре. Выравнивание Mafft имеет больше ярко выраженных консервативных участков, однако это в данном случае не может свидетельствовать о его эволюционной правильности.
MSAProbs — инструмент для множественного выравнивания белковых последовательностей. Использует комбинацию скрытых марковских моделей и функций разбиения для вычисления апостериорных вероятностей. Считается, что MSAprobs обладает большей точностью, чем ClustalW, MAFFT, MUSCLE, ProbCons и Probalign. Согласно базе данных BaliBase, средний вес программы — 0.607, а время работы, зарегистрированное во время испытаний 12382 сек (работает примерно в 8 раз дольше, чем MAFFT). На ввод программе даётся последовательность в формате FASTA, вывод в виде файла в форматах FASTA и CLUSTALW. Написана на языке программирования C++. Работает на самых популярных ОС (Linux; Mac OS X; Microsoft Windows). Программа абсолютно бесплатная. Кроме того, MSAProbs оптимизирован для многих процессоров за счет использования многопоточной схемы, а также подходит для систем, использующих MPI, что позволяет преодолеть высокий уровень нагрузки на память.