Выравнивания. Дополнительные главы


Сравнение структуры разных выравниваний одних и тех же последовательностей

В этом задании мы должны были сравнить структуру выравниваний одинаковых последовательностей разными методами. Смысл выравнивания в том, что аминокислотные остатки из одной колонки считаются гомологичными, поэтому если в одном выравнивании ак1 стоит над ак2, а в другом выравнивании ак1 стоит над ак3, то в этом месте выравнивания отличаются. Для оригинальности, я решил сравнить два основных метода множественного выравнивания: Muscle и ClustalW (мне кажется более корректным сравнивать два метода множественного, чем множественного и попарного). То есть я должен найти несколько гомологов белка, выровнять их разными методами и в полученном выравнивании удалить все последовательности, кроме двух нужных. Чтобы различия не были вызваны стохастическими факторами, их должно быть немного, белки должны быть небольшого размера, гомологичными и довольно консервативными. Для этого я взял TATA-связывающие белки мыши (Mus musculus) и другого грызуна - сирийского хомячка (Mesocricetus auratus). Чтобы выполнить множественное выравнивание, мы добрали белки других млекопитающих: человека (Homo sapiens), макака-крабоеда (Macaca fascicularis) и быка (Bos taurus). Таким образом, были соблюдены условия небольшой длины, близкого эволюционного расстояния, а еще консервативности в силу того, что это важный фактор транскрипции (на такое действует стабилизирующий отбор). Здесь можно посмотреть последовательности, здесь - выравнивание с помощью Muscle, а здесь - с помощью ClustalW. После мы удалили все дополнительные последовательности. Графически выравнивания отображены на рисунках 1 и 2.

alignment

Рис. 1. Выравнивание Muscle. Кликните, чтобы улучшить качество

alignment

Рис. 2. Выравнивание ClustalW. Кликните, чтобы улучшить качество

Различий не получилось не очень много, и они представлены в таблице 1. Чтобы понять, почему так вышло, кратко разберемся в сути методов. Метод Clustal сначала делает попарное выравнивание последовательностей, подбирает на их основе дерево методом Neighbor-joining и на его основе генерирует глобальное множественное выравнивание. Метод Muscle похож по сути, но делает сначала черновое выравнивание, и несколько раз все пересчитывает. Изначально он создавался как оптимизация Clustal. ClustalW реализует итеративный алгоритм, так что ошибки, возникающие на более раннем этапе, вряд ли исправляются на более позднем этапе, в то время как Muscle реализует прогрессивный алгоритм, позволяющий повторно оптимизировать столбцы в течение всего процесса. По всей видимости, Clustal более все равно на открытие гэпов.

Таблица 1. Структурные различия в выравниваниях последовательностей

Mesau E 58 Q 59 Q 60 Q 61 Q 62 Q 63 Q 64 Q 65 Q 66
Mouse (Muscle) Q 58 Q 59 Q 60 Q 61 Q 62 Q 63 Q 64 - -
Mouse (ClustalW) - - Q 58 Q 59 Q 60 Q 61 Q 62 Q 63 Q 64

Карта локального сходства двух белков

В этом задании нужно было по сути сравнить работу BLAST как эвристического алгоритма попарного выравнивания с алгоритмом Смита-Вотермана. Для этого мы провели BLAST двух последовательностей. Мы должны были выбрать последовательности с необычными картами локального сходства, поэтому взяли последовательности HOX-генов человека и дрозофилы. Но об этом ниже. К слову, несколько слов о последовательностях:

Организм Drosophila melanogaster Homo sapiens
ID EXD_DROME HXD10_HUMAN
AC P40427; A4V4K5;
Q0KHS1; Q9V3S2
P28358; Q6NT10
Рекомендованное
название
Homeobox protein extradenticle
(Dpbx)
Homeobox protein Hox-D10
(Homeobox protein Hox-4D/
Homeobox protein Hox-4E)
FT
FT   CHAIN             1..376
FT   DNA_BIND        238..300
FT   COMPBIAS        127..135
FT   CONFLICT              98
FT   CONFLICT             344
FT   CONFLICT             363
FT   TURN            238..241
FT   HELIX           247..259
FT   TURN            260..262
FT   HELIX           268..278
FT   HELIX           282..298
FT   TURN            299..301
FT   HELIX           306..309
FT   CHAIN             1..340
FT   DNA_BIND        266..325
FT   MOD_RES              238
FT   MOD_RES              239
FT   VARIANT              319
FT   CONFLICT             150

Результат бластования двух последовательностей можно посмотреть здесь. Теперь немного о карте локального сходства. Это график, на осях которого отложены выравниваемые последовательности. Прямые линии означают удавшееся локальное выравнивание.

Рис. 3. Карта локального сходства гомеозисных генов

На графике мы видим, что несколько участков с гэпом из начала белка человека гомологичны участкам белка дрозофилы. Так же гомологичны участки в конце белка человека с участками в начале белка дрозофилы. В данном случае это свидетельствует о циклической перестановке, когда в ходе эволюции начало белка переместилось в конец, а конец - в начало. Есть в этих белках и негомологичные участки, а есть места, где выравнивания противоречат друг другу (справа на графике одна линия над другой).

Затем мы хотели выяснить, отличаются ли структурно выравнивания BLAST и классическое локальное. Для этого мы взяли из выдачи BLAST выравнивание с наибольшим весом (см. файл выше). Также мы провели локальное выравнивание с помощью команды water (результат можно посмотреть тут). Соответствующие фрагменты можно посмотреть ниже. Интересно, что структурно они вообще не различаются (имеется в виду то, что было проделано в 1 задании). Интересно, что выравнивания оба выдали примерно одинаковые участки, которые, согласно полю FT (выше) соответствуют DNA-связывающим сайтам. То есть, эти участки достаточно консервативны в виду своей функции.

Выравнивание BLAST:

EXD_DROME    233  SRFLDA---RRKRRNFSK-QASEILNEYFYSHLSNPYPSEEAKEELARKCGITVSQVSNWFGNKRIRYKK  298
                   S +L A   R+KR  ++K Q  E+  E+ +    N Y + E + E+++   +T  QV  WF N+R++ KK
HXD10_HUMAN  258  SNWLTAKSGRKKRCPYTKHQTLELEKEFLF----NMYLTRERRLEISKSVNLTDRQVKIWFQNRRMKLKK  323

Выравнивание water:

EXD_DROME    233  SRFLDA---RRKRRNFSK-QASEILNEYFYSHLSNPYPSEEAKEELARKCGITVSQVSNWFGNKRIRYKK  298
                  |.:|.|   |:||..::| |..|:..|:.:    |.|.:.|.:.|:::...:|..||..||.|:|::.||
HXD10_HUMAN  258  SNWLTAKSGRKKRCPYTKHQTLELEKEFLF----NMYLTRERRLEISKSVNLTDRQVKIWFQNRRMKLKK  323