Выбор домена, архитектуры и таксона
Для работы был выбран домен рекрутирования каспазы (Caspase recruitment domain; AC: PF00619.16; ID: CARD), удовлетворяющий всем ограничениям. Этот домен обнаруживается в разнообразных белках, обычно тех, которые связаны с процессами воспаления и апоптоза. CARD, взаимодействуя друг с другом, обеспечивают формирование больших белковых комплексов.
Всего CARD входит в 127 архитектур; из них были выбраны следующие:
- CARD (497 последовательностей): однодоменная архитектура
- CARD, Peptidase_C14 (305); второй домен — это собственно каспаза (цистеин-зависимая аспартат-направленная протеаза)
- PYRIN, CARD (68); первый домен — пирин, он, как и CARD, принадлежит к клану Death и тоже отвечает за взаимодействие между разными содержащими его белками.
Для анализа был выбран таксон Eutheria (настоящие звери), включающий здесь 38 видов и 659 последовательностей. Подтаксоны:
- Euarchontoglires (23 / 659)
- Laurasiatheria (14 / 188)
Работа с доменом
С помощью JalView было получено полное выравнивание домена CARD из Pfam; оно было затем раскрашено по BLOSUM62 с порогом консервативности 20. Домен демонстрирует умеренную консервативность в определенных позициях выравнивания.
Структура 1CY5 белка APAF_HUMAN была связана с соответствующим элементов выравнивания. Проект был сохранен в card.jar.
Работа с архитектурами
Скрипт swisspfam_to_xls
был запущен для данного Pfam AC; после некоторых плясок с бубном — на самом деле, как выясняется, скрипт фильтрует не по AC (PF00619.16), а по ID (CARD) — была получена таблица card.xlsx. Поскольку скрипт просто отобрал все архитектуры, где вообще хоть как-то встречается домен CARD, придется самим отделить мух от котлет:
- Для начала с помощью сводной таблицы отсеем те последовательности, в которых больше одного домена CARD. Так из 5077 строк осталось 4544.
- Затем удалим все квази-домены с отсутствующим описанием (чтобы не забраковать лишнего); осталось 3925 строк. Результат этого — на листе №1: domains.
- Поставим в соответствие домену CARD значение 1; Peptidase_C14 — значение 2; PYRIN — 4; любому другому домену — 8. Теперь нас интересуют значения 1 (архитектура CARD, всего 497, в точности как и должно быть); 3 (CARD, Peptidase_C14; всего 305 — сколько и должно быть); 5 (PYRIN, CARD; всего 66 — должно быть, вообще-то, 63, ну да ладно). Лист №2: architectures получен как сводная таблица из первого; на нем оставлены только последовательности с одной из этих архитектур. К ним также присоединена информация, полученная со следующих этапов работы.
Далее выполняем ID mapping (лист №3: mapping); добавляем его результаты в лист architectures. Удаляем все последовательности с ошибкой маппинга (34 штуки); остаётся в сумме 834. Получаем таксономию (лист №4: taxonomy). Добавляем информацию с этого листа на лист architectures (только нужный нам уровень подтаксона).
На новый лист №5: only_two переносим только записи, принадлежащие одному из двух подтаксонов (всего их осталось к этому моменту 459). На лист №6: card_len копируем с листа domains информацию только о доменах CARD и подсчитываем длину каждого домена. Переносим эту информацию на лист only_two. Можно подсчитать, что медиана длины домена CARD здесь — 87, поэтому подсветим ячейки со значением меньше 80, чтобы не выбирать их для выравнивания.
Для каждого подтаксона из каждой архитектуры было выбрано около 15 белков (таким образом, по 30 на каждую архитектуру). Единственное исключение: в таксоне Laurasiatheria, архитектуре 5 (PYRIN, CARD) обнаружилось только 8 представителей. Они отмечены в колонке «избранный».
Работа с выравниванием
Выравнивание из проекта JalView было сохранено в формат FASTA и нужные последовательности были отсеяны с помощью скрипта filter-alignment.py. Результат: filtered.fasta. Подтаксоны были помечены так: [E] — Euarchontoglires, (L) — Laurasiatheria. Забегая вперед, скажу, что после выполнения последовательности действий в первый раз обнаружилось, что структура APAF_HUMAN — неудачный выбор; она плохо выравнивается с другими. Было решено ее заменить на ASC_HUMAN.
Поскольку отфильтрованные последовательности располагались хаотично, был написан простейший скрипт на питоне, чтобы разметить для каждой из них в названии таксон и тип архитектуры. Результат: filtered_corrected.fasta.
Полученное выравнивание было открыто в JalView и отредактировано: пустые колонки удалены; последовательности распределены на группы по архитектурам; в каждой группе использована окраска по ClustalX с порогом консервативности 10; к белку ASC_HUMAN была присоединена вторичная структура.
Далее выравнивание было дополнительно отредактировано: удалены явные фрагменты; еще одна последовательность была выровнена с другими явно неправильно (5__G3SB10_GORGO__[E]) и была удалена; в нескольких местах были убраны короткие гэпы (возникшие из-за одного-единственного белка) внутри альфа-спирали; N- и C-концевые участки были обрезаны.
Результат многочасового труда выглядит так (filtered.jar):
Это выравнивание выглядит вполне правдоподобным: заметно и различие в консервативности между разными архитектурами, и в определенных позициях консервативность по выравниванию в целом. Участки, соответствующие альфа-спиралям ядра, гэпов (теперь) не содержат.
Однако сразу можно заметить, что, скорее всего, архитектуры возникли до разделения этих видов, т. к. каждая из них заметно консервативна внутри себя, т. е. эволюционировала уже независимо.
Построение дерева
Имена последовательностей уже говорящие, поэтому можно перейти сразу к дереву. Оно построено эвристическим методом UPGMA, поэтому дерево получается укоренненым и ультраметрическим. Bootstrap включён (100 последовательностей). Результат (tree.nwk):
Архитектуры: 1 — CARD, 3 — (CARD, Peptidase_C14), 5 — (PYRIN, CARD)
Во-первых, из дерева видно, что белок с архитектурой (PYRIN, CARD) возник еще у общего предка этих таксонов и в каждом из них эволюционировал уже независимо. Конечно, дерево подчиняется этому последнему правилу не совсем в точности (таксоны слегка перемешаны); вероятно, это происходит из-за высокой консервативности белка, во-первых (мутаций мало) и сложного пути его эволюции (повторные мутации, конвергентные мутации и т д.)
По поводу однодоменной архитектуры CARD (1) и CARD, Peptidase_C14 (3) всё менее однозначно. На их положение в дереве также, видимо, влияют предположенные выше для 5 (PYRIN, CARD) факторы. Несомненно, что архитектура 3 (CARD, Peptidase_C14) также существовала до разделения таксонов, как и, естественно, однодоменная архитектура CARD; однако архитектуры 1 и 3 заметно перемешаны в дереве (часто белки одного вида этих двух архитектур стоят с большой долей уверенности непосредственно рядом, то есть эволюционировали всё это время бок о бок. Предположить повторное многократное образование двухдоменной архитектуры не представляется разумным, однако из двухдоменной архитектуры получить однодоменную проще простого. Если принять это за правду, то этот процесс, видимо, происходит довольно часто, потому что подобных примеров даже в этом небольшом дереве достаточно.
Можно предположить и еще одно объяснение: поскольку домены CARD предназначены для взаимодействия друг с другом, то, возможно, эволюция разных доменных архитектур, содержащих этот домен, происходит согласованно. Возможно, этим же объясняется высокая консервативность домена: ведь если CARD в одной архитектуре заметно изменится, а в другой — нет, то взаимодействовать они уже не смогут (или будут взаимодействовать хуже). С другой стороны, одновременное согласованное изменение двух разных белков — более-менее редкое событие (ведь мутации по-прежнему остаются случайными и независимыми). Поэтому-то в работе сложных систем эволюция и бережно соблюдает принцип «работает — не трогай» :-)
UPD. Поскольку было указано, что среди группы 1 могут присутствовать осколки других архитектур, она была подвергнута анализу. Для некоторых белков обнаружилось, что они действительно являются фрагментами архитектуры 3. Такие фрагменты были удалены, после чего вся группа 1 по консервативности распалась на несколько мало схожих друг с другом подгрупп. Я делаю вывод, что в группу 1 попали фрагменты сразу нескольких разных архитектур.
Если подумать, то это имеет смысл: ведь домен CARD существует, в основном, чтобы взаимодействовать с себе подобными, условно говоря — это стыковочный модуль, должен же он нести какую-нибудь полезную нагрузку. Возможно, что однодоменной архитектуры CARD и вообще нет в природе, просто много плохо предсказанных белков.
Решением было удалить группу 1 из выравнивания вовсе:
Новое дерево:
Тут ясно видно, что архитектуры 1 и 3, конечно, существовали задолго до разделения этих подтаксонов. Филогения более-менее прослеживается, но подтаксоны все равно перемешаны. Видимо, из-за специфического пути эволюции этого непростого домена. А возможно (смутно грызет меня сомнение), что 3 — это на самом деле тоже не совсем однородная архитектура. Подозрительно много последовательностей с общими особенностями (напр., ET в позициях 55-56) в разных подтаксонах. Но, в общем, и так неплохо.
Новые файлы: cut.jar, tree_cut.nwk
Поскольку фрагменты из архитектуры 1 и архитектура 3 похожи и заметно отличаются от архитектуры 5, а в заданиях по профилям (которые я уже выполнил ранее) я разделил последовательности по принципу 1+3 vs. 5, на практикумы по профилям выполненные сейчас изменения не повлияли, так что просьба их проверить как есть.