Учебный сайт Кирилла Цуканова → Второй семестр

Множественные выравнивания

1. Множественное выравнивание с гомологами

С помощью BLAST были выбраны пять гомологов белка YVDD_BACSU (сенная палочка) из разных организмов:

Вся родня в сборе:

Откроем файл с последовательностями в JalView и выровняем их, например, с помощью Tcoffee (настройки по умолчанию). Раскраска по идентичности, отсечение консервативности 15:

Заметно, что сходство белков из совершенно разных организмов весьма значительно и, следовательно, консервативность их велика. Это неудивительно, ведь их активность напрямую влияет на митоз, и, следовательно, на рост и развитие организмов. Кстати, семейство белков называется LOG, сокращенно от Lonely Guy, по имени первого открытого белка, который был назван так потому, что растения риса, мутантные по соответствующему гену, образовывали цветки с одними лишь тычинками, без пестиков.

Что касается выравнивания, то оно внушает доверие. В основном оно представлено очень длинными и отлично совпадающими участками без гэпов с отдельными островками точного совпадения. Особенно бросается в глаза участки 70–81 и 148–181. Некоторые аномалии вызваны частными изменениями отдельных белков: например, «хвост» в самом начале у риса и длинный участок где-то в середине у дрожжей. Выравнивание до 35-й позиции не показывает вообще никакого сходства (кроме начального метионина, конечно), даже если учесть хвост у риса; с 36-й позиции начинается смысловая часть выравнивания. Последний совершенно неизменный остаток располагается на 215-й позиции выравнивания; точное сходство удается проследить вплоть до 237-й позиции — до этого места гэпов нет, и остатки все еще очень похожи; 243-я позиция еще показывает достаточное сходство, чтобы считать это гомологией. Дальше и до конца выравнивания смысл теряется окончательно, эти «хвосты» уже можно не считать частью эволюционного выравнивания.

Окраска по BLOSUM62 позволяет выявить следующие группы сходных аминокислот: самые частые — L/I/V (встречается по меньшей мере 7 раз, если считать только те позиции, где не встречаются никакие другие остатки) и A/S (6 раз); по одному или два раза встречаются также Y/F, K/R, S/T.

Jalview позволяет построить филогенетическое дерево на основе выравнивания (процент идентичности, среднее расстояние):

В целом, всё окей, только вышло, что грибы и растения стали эукариотами независимо друг от друга :-) Проблема, конечно, в том, что белок не настолько критичен и уязвим к изменениям, чтобы быть достаточно консервативным для строгого филогенетического анализа. Удалим явно негомологичные участки — хвосты в начале и конце последовательностей и длинный вставочный фрагмент у дрожжей (который, видимо, и создал этот эволюционный парадокс), результат:

Вот, это уже неплохо.

2. Muscle

Результат, полученный от SRS: delta.fasta
Выровнено с помощью Muscle: delta_aligned.fasta
Выравнивание в формате MSF: delta.msf (без окраски, так как формат MSF окраску попросту не поддерживает)

Раскраска по BLOSUM62:

Ну и, конечно, сложно удержаться от того, чтобы не построить дерево:

Беглая проверка цифр показывает, что дерево тоже в целом правдоподобно.

3. Структура

Вот так выглядит цепь E моего белка (самая длинная, содержит 184 остатка из номинальных 191) с раскраской по консервативности:

Вообще тенденции таковы: то, что находится внутри, намного более консервативно, чем то, что снаружи. В принципе, это логично. Самыми консервативными оказались, во-первых, бета-тяжи, которые все находятся внутри (в раскраске выравнивания этому соответствуют плотные короткие кусочки, например, два заметных участка в начале, совершенно одинаковые у всех пяти организмов — это бета-тяжи). Во-вторых, у многих альфа-спиралей остатки, направленные вовнутрь, тоже консервативны, но часто в меньшей степени и не все (они отвечают участкам раскраски, где консервативные и неконсервативные остатки чередуются). В-третьих, очень много консервативных остатков оказалось в местах, где происходит поворот цепи. На иллюстрации выше хорошо видны все три случая: бета-тяжи — по центру, противопоставление «внутреннее—внешнее» хорошо видно у альфа-спирали справа, характерные повороты, например, внизу, вверху и особенно справа снизу.

На иллюстрации сверху изображен вид с внутренней стороны белка (примерно), вот вид, зеркальный ему, с внешней стороны:

Белым-бело.

Описания, где у этого белка активный центр, в свободном доступе нет (единственная статья о структуре так и дожидается публикации с 2008 года), но вот остатки, которые связывают лиганды (сульфат-ионы), определенные в одном из прошлых занятий, оказались весьма консервативными:

4. mafft и edialign

После чтения описания программы mafft было решено использовать режим G-INS-i, результат (сравнение с самым первым выравниванием с помощью TCoffee по умолчанию — по наведению мыши):

Как видно, важные участки ничуть не изменились, все различия касаются только «хвостов» и вставок.

Результат с edialign, параметры по умолчанию (опять же, по наведению — сравнение с самым первым выравниванием):

И опять различия весьма незначительны.

consambig, distmat и plotcon

Программа consambig обещает по выравниванию выдать некую усредненную последовательность, так сказать, предположительно-предковую. Если прогнать через нее самый первый файл (alignment.msf), она выдаст вот:

MxxxxxxxxxxxxgaaataapesggggagxxxxxxXXXXVXXGXXXGXXXXYXXXAXXXG
XXXXXXXXXLVYGGXXXGLMGXXXXXXXgpXXXXXXXGXXPXXXXXiXEXXXXdkedvnk
allesvenhkgatpiseXXXXXXXVXXMHXRKXXMXXXXDXFXXXPGGXGTXEEXXEXXX
WXXJGXHXKPXXLXXXXXXXXXXXXXXXXXXXEXFXXXXXXXXXXXXXXXXXXXXXXXxx
xxpxxxkxasxxxwxxzxpxxxxpdlxxxxxXX

(На самом деле, конечно, в фаста-формате, but well...) На этом примере хорошо видно, что кормить consambig надо легкоусвояемыми, то есть вручную обработанными, последовательностями: эта программа очень простая и никакой доработки за пользователя не выполняет, следуя классическому unix way. (Например, очевидно, что если в пяти последовательностях части нет, а в одной есть, то исходный вариант — ее отсутствие. Эта программа же строит самую длинную возможную последовательность.)

Программа distmat строит матрицу, характеризующую то, насколько последовательности попарно далеки друг от друга. Например:

  1	  2	   3	   4	   5	   6
0.00	55.26	 56.32	 57.89	 58.66	 61.26		YVDD_BACSU/1-191  1
	 0.00	 50.26	 54.87	 49.17	 57.44		Y4923_PSEAE/1-195 2
		  0.00	 30.48	 60.91	 55.05		LOG_ORYSJ/1-242   3
			  0.00	 58.38	 55.56		LOG1_ARATH/1-213  4
				  0.00	 63.27		FAS6_RHOFA/1-198  5
					  0.00		YJF5_YEAST/1-245  6

А plotcon рисует красивый график распределения консервативности остатков (вектор):

Что касается описания Jalview, то эта программа слишком хорошая и интуитивно понятная, чтобы ее описывать.