В этом задании мы должны были сравнить структуру выравниваний одинаковых последовательностей разными методами. Смысл выравнивания в том, что аминокислотные остатки из одной колонки считаются гомологичными, поэтому если в одном выравнивании ак1 стоит над ак2, а в другом выравнивании ак1 стоит над ак3, то в этом месте выравнивания отличаются. Для оригинальности, я решил сравнить два основных метода множественного выравнивания: Muscle и ClustalW (мне кажется более корректным сравнивать два метода множественного, чем множественного и попарного). То есть я должен найти несколько гомологов белка, выровнять их разными методами и в полученном выравнивании удалить все последовательности, кроме двух нужных. Чтобы различия не были вызваны стохастическими факторами, их должно быть немного, белки должны быть небольшого размера, гомологичными и довольно консервативными. Для этого я взял TATA-связывающие белки мыши (Mus musculus) и другого грызуна - сирийского хомячка (Mesocricetus auratus). Чтобы выполнить множественное выравнивание, мы добрали белки других млекопитающих: человека (Homo sapiens), макака-крабоеда (Macaca fascicularis) и быка (Bos taurus). Таким образом, были соблюдены условия небольшой длины, близкого эволюционного расстояния, а еще консервативности в силу того, что это важный фактор транскрипции (на такое действует стабилизирующий отбор). Здесь можно посмотреть последовательности, здесь - выравнивание с помощью Muscle, а здесь - с помощью ClustalW. После мы удалили все дополнительные последовательности. Графически выравнивания отображены на рисунках 1 и 2.
Рис. 1. Выравнивание Muscle. Кликните, чтобы улучшить качество
Рис. 2. Выравнивание ClustalW. Кликните, чтобы улучшить качество
Различий не получилось не очень много, и они представлены в таблице 1. Чтобы понять, почему так вышло, кратко разберемся в сути методов. Метод Clustal сначала делает попарное выравнивание последовательностей, подбирает на их основе дерево методом Neighbor-joining и на его основе генерирует глобальное множественное выравнивание. Метод Muscle похож по сути, но делает сначала черновое выравнивание, и несколько раз все пересчитывает. Изначально он создавался как оптимизация Clustal. ClustalW реализует итеративный алгоритм, так что ошибки, возникающие на более раннем этапе, вряд ли исправляются на более позднем этапе, в то время как Muscle реализует прогрессивный алгоритм, позволяющий повторно оптимизировать столбцы в течение всего процесса. По всей видимости, Clustal более все равно на открытие гэпов.
Таблица 1. Структурные различия в выравниваниях последовательностей
Mesau | E 58 | Q 59 | Q 60 | Q 61 | Q 62 | Q 63 | Q 64 | Q 65 | Q 66 |
Mouse (Muscle) | Q 58 | Q 59 | Q 60 | Q 61 | Q 62 | Q 63 | Q 64 | - | - |
Mouse (ClustalW) | - | - | Q 58 | Q 59 | Q 60 | Q 61 | Q 62 | Q 63 | Q 64 |
В этом задании нужно было по сути сравнить работу BLAST как эвристического алгоритма попарного выравнивания с алгоритмом Смита-Вотермана. Для этого мы провели BLAST двух последовательностей. Мы должны были выбрать последовательности с необычными картами локального сходства, поэтому взяли последовательности HOX-генов человека и дрозофилы. Но об этом ниже. К слову, несколько слов о последовательностях:
Организм | Drosophila melanogaster | Homo sapiens |
ID | EXD_DROME | HXD10_HUMAN |
AC | P40427; A4V4K5; Q0KHS1; Q9V3S2 |
P28358; Q6NT10 |
Рекомендованное название |
Homeobox protein extradenticle (Dpbx) |
Homeobox protein Hox-D10 (Homeobox protein Hox-4D/ Homeobox protein Hox-4E) |
FT |
FT CHAIN 1..376 FT DNA_BIND 238..300 FT COMPBIAS 127..135 FT CONFLICT 98 FT CONFLICT 344 FT CONFLICT 363 FT TURN 238..241 FT HELIX 247..259 FT TURN 260..262 FT HELIX 268..278 FT HELIX 282..298 FT TURN 299..301 FT HELIX 306..309 |
FT CHAIN 1..340 FT DNA_BIND 266..325 FT MOD_RES 238 FT MOD_RES 239 FT VARIANT 319 FT CONFLICT 150 |
Результат бластования двух последовательностей можно посмотреть здесь. Теперь немного о карте локального сходства. Это график, на осях которого отложены выравниваемые последовательности. Прямые линии означают удавшееся локальное выравнивание.
На графике мы видим, что несколько участков с гэпом из начала белка человека гомологичны участкам белка дрозофилы. Так же гомологичны участки в конце белка человека с участками в начале белка дрозофилы. В данном случае это свидетельствует о циклической перестановке, когда в ходе эволюции начало белка переместилось в конец, а конец - в начало. Есть в этих белках и негомологичные участки, а есть места, где выравнивания противоречат друг другу (справа на графике одна линия над другой).
Затем мы хотели выяснить, отличаются ли структурно выравнивания BLAST и классическое локальное. Для этого мы взяли из выдачи BLAST выравнивание с наибольшим весом (см. файл выше). Также мы провели локальное выравнивание с помощью команды water (результат можно посмотреть тут). Соответствующие фрагменты можно посмотреть ниже. Интересно, что структурно они вообще не различаются (имеется в виду то, что было проделано в 1 задании). Интересно, что выравнивания оба выдали примерно одинаковые участки, которые, согласно полю FT (выше) соответствуют DNA-связывающим сайтам. То есть, эти участки достаточно консервативны в виду своей функции.
Выравнивание BLAST:
EXD_DROME 233 SRFLDA---RRKRRNFSK-QASEILNEYFYSHLSNPYPSEEAKEELARKCGITVSQVSNWFGNKRIRYKK 298 S +L A R+KR ++K Q E+ E+ + N Y + E + E+++ +T QV WF N+R++ KK HXD10_HUMAN 258 SNWLTAKSGRKKRCPYTKHQTLELEKEFLF----NMYLTRERRLEISKSVNLTDRQVKIWFQNRRMKLKK 323
Выравнивание water:
EXD_DROME 233 SRFLDA---RRKRRNFSK-QASEILNEYFYSHLSNPYPSEEAKEELARKCGITVSQVSNWFGNKRIRYKK 298 |.:|.| |:||..::| |..|:..|:.: |.|.:.|.:.|:::...:|..||..||.|:|::.|| HXD10_HUMAN 258 SNWLTAKSGRKKRCPYTKHQTLELEKEFLF----NMYLTRERRLEISKSVNLTDRQVKIWFQNRRMKLKK 323