1. Множественное выравнивание с гомологами
С помощью BLAST были выбраны пять гомологов белка YVDD_BACSU
(сенная палочка) из разных организмов:
Y4923_PSEAE
(синегнойная палочка)LOG_ORYSJ
(азиатский рис)LOG1_ARATH
(резуховидка Таля)FAS6_RHOFA
(Rhodococcus fascians)YJF5_YEAST
(дрожжи)
Вся родня в сборе:
Откроем файл с последовательностями в JalView и выровняем их, например, с помощью Tcoffee (настройки по умолчанию). Раскраска по идентичности, отсечение консервативности 15:
Заметно, что сходство белков из совершенно разных организмов весьма значительно и, следовательно, консервативность их велика. Это неудивительно, ведь их активность напрямую влияет на митоз, и, следовательно, на рост и развитие организмов. Кстати, семейство белков называется LOG, сокращенно от Lonely Guy, по имени первого открытого белка, который был назван так потому, что растения риса, мутантные по соответствующему гену, образовывали цветки с одними лишь тычинками, без пестиков.
Что касается выравнивания, то оно внушает доверие. В основном оно представлено очень длинными и отлично совпадающими участками без гэпов с отдельными островками точного совпадения. Особенно бросается в глаза участки 70–81 и 148–181. Некоторые аномалии вызваны частными изменениями отдельных белков: например, «хвост» в самом начале у риса и длинный участок где-то в середине у дрожжей. Выравнивание до 35-й позиции не показывает вообще никакого сходства (кроме начального метионина, конечно), даже если учесть хвост у риса; с 36-й позиции начинается смысловая часть выравнивания. Последний совершенно неизменный остаток располагается на 215-й позиции выравнивания; точное сходство удается проследить вплоть до 237-й позиции — до этого места гэпов нет, и остатки все еще очень похожи; 243-я позиция еще показывает достаточное сходство, чтобы считать это гомологией. Дальше и до конца выравнивания смысл теряется окончательно, эти «хвосты» уже можно не считать частью эволюционного выравнивания.
Окраска по BLOSUM62 позволяет выявить следующие группы сходных аминокислот: самые частые — L/I/V
(встречается по меньшей мере 7 раз, если считать только те позиции, где не встречаются никакие другие остатки) и A/S
(6 раз); по одному или два раза встречаются также Y/F
, K/R
, S/T
.
Jalview позволяет построить филогенетическое дерево на основе выравнивания (процент идентичности, среднее расстояние):
В целом, всё окей, только вышло, что грибы и растения стали эукариотами независимо друг от друга :-) Проблема, конечно, в том, что белок не настолько критичен и уязвим к изменениям, чтобы быть достаточно консервативным для строгого филогенетического анализа. Удалим явно негомологичные участки — хвосты в начале и конце последовательностей и длинный вставочный фрагмент у дрожжей (который, видимо, и создал этот эволюционный парадокс), результат:
Вот, это уже неплохо.
2. Muscle
Результат, полученный от SRS: delta.fasta
Выровнено с помощью Muscle: delta_aligned.fasta
Выравнивание в формате MSF: delta.msf (без окраски, так как формат MSF окраску попросту не поддерживает)
Раскраска по BLOSUM62:
Ну и, конечно, сложно удержаться от того, чтобы не построить дерево:
Беглая проверка цифр показывает, что дерево тоже в целом правдоподобно.
3. Структура
Вот так выглядит цепь E моего белка (самая длинная, содержит 184 остатка из номинальных 191) с раскраской по консервативности:
Вообще тенденции таковы: то, что находится внутри, намного более консервативно, чем то, что снаружи. В принципе, это логично. Самыми консервативными оказались, во-первых, бета-тяжи, которые все находятся внутри (в раскраске выравнивания этому соответствуют плотные короткие кусочки, например, два заметных участка в начале, совершенно одинаковые у всех пяти организмов — это бета-тяжи). Во-вторых, у многих альфа-спиралей остатки, направленные вовнутрь, тоже консервативны, но часто в меньшей степени и не все (они отвечают участкам раскраски, где консервативные и неконсервативные остатки чередуются). В-третьих, очень много консервативных остатков оказалось в местах, где происходит поворот цепи. На иллюстрации выше хорошо видны все три случая: бета-тяжи — по центру, противопоставление «внутреннее—внешнее» хорошо видно у альфа-спирали справа, характерные повороты, например, внизу, вверху и особенно справа снизу.
На иллюстрации сверху изображен вид с внутренней стороны белка (примерно), вот вид, зеркальный ему, с внешней стороны:
Белым-бело.
Описания, где у этого белка активный центр, в свободном доступе нет (единственная статья о структуре так и дожидается публикации с 2008 года), но вот остатки, которые связывают лиганды (сульфат-ионы), определенные в одном из прошлых занятий, оказались весьма консервативными:
4. mafft
и edialign
После чтения описания программы mafft
было решено использовать режим G-INS-i
, результат (сравнение с самым первым выравниванием с помощью TCoffee по умолчанию — по наведению мыши):
Как видно, важные участки ничуть не изменились, все различия касаются только «хвостов» и вставок.
Результат с edialign
, параметры по умолчанию (опять же, по наведению — сравнение с самым первым выравниванием):
И опять различия весьма незначительны.
consambig
, distmat
и plotcon
Программа consambig
обещает по выравниванию выдать некую усредненную последовательность, так сказать, предположительно-предковую. Если прогнать через нее самый первый файл (alignment.msf), она выдаст вот:
MxxxxxxxxxxxxgaaataapesggggagxxxxxxXXXXVXXGXXXGXXXXYXXXAXXXG XXXXXXXXXLVYGGXXXGLMGXXXXXXXgpXXXXXXXGXXPXXXXXiXEXXXXdkedvnk allesvenhkgatpiseXXXXXXXVXXMHXRKXXMXXXXDXFXXXPGGXGTXEEXXEXXX WXXJGXHXKPXXLXXXXXXXXXXXXXXXXXXXEXFXXXXXXXXXXXXXXXXXXXXXXXxx xxpxxxkxasxxxwxxzxpxxxxpdlxxxxxXX
(На самом деле, конечно, в фаста-формате, but well...) На этом примере хорошо видно, что кормить consambig надо легкоусвояемыми, то есть вручную обработанными, последовательностями: эта программа очень простая и никакой доработки за пользователя не выполняет, следуя классическому unix way. (Например, очевидно, что если в пяти последовательностях части нет, а в одной есть, то исходный вариант — ее отсутствие. Эта программа же строит самую длинную возможную последовательность.)
Программа distmat
строит матрицу, характеризующую то, насколько последовательности попарно далеки друг от друга. Например:
1 2 3 4 5 6 0.00 55.26 56.32 57.89 58.66 61.26 YVDD_BACSU/1-191 1 0.00 50.26 54.87 49.17 57.44 Y4923_PSEAE/1-195 2 0.00 30.48 60.91 55.05 LOG_ORYSJ/1-242 3 0.00 58.38 55.56 LOG1_ARATH/1-213 4 0.00 63.27 FAS6_RHOFA/1-198 5 0.00 YJF5_YEAST/1-245 6
А plotcon
рисует красивый график распределения консервативности остатков (вектор):
Что касается описания Jalview, то эта программа слишком хорошая и интуитивно понятная, чтобы ее описывать.