Реконструкция эволюции доменной архитектуры



Выбор домена и его описание



Для выполнения задания я выбрала домен ZZ zinc finger (ID: ZZ, AC: PF00569). Этот домен найден у 786 видов в составе 6142 последовательностей белков, и всего для него известно 536 архитектур.
Выбранный домен является одним из типов цинковых пальцев (анг. "zinc finger"). Домены этого типа связывают один или несколько ионов цинка посредством координационных связей с аминокислотами (обычно это 2 гистидина и 2 цистеина)1. Белки, содержащие цинковый палец, в большинстве своем связываются с ДНК, РНК, другими белками или небольшими молекулами.
Конкретно мой домен содержит 4-6 остатков цистеина, которые связывают два иона цинка2. Этот домен также содержит мотив Cys-X2-Cys, найденный в других цинковых пальцах. Считается, что цинковый палец типа ZZ участвует в белок-белковых взаимодействиях: к примеру, он был найден в таких белках, как Е3 убиквитин-лигаза и дистрофин.

На рис. 1 представлено изображение домена в составе Е3 убиквитин-лигазы MIB1 человека (PDB ID: 4XI6), а на рис. 2 и 3 — приближенное изображение взаимодействия двух координационных центров с ионами цинка (фиолетовые).


Рис. 1. Визуализация домена ZZ
Рис. 2. Координационные связи домена с цинком
Рис. 3. Координационные связи домена с цинком


Построение выравнивания



Для выбранного домена было скачано выравнивание (Jalview: File → Fetch Sequences → Pfam (Full) → PF00569), которое затем было покрашено (ClustalX, порог консервативности=30). Также я добавила 3D структуру белка DTNA_HUMAN, последовательность которого выделена в выравнивании оранжевым цветом. Полученное выравнивание доступно в формате .fasta или в качестве проекта.
К сожалению, Jalview отказался сохранять изображение выравнивания (оно слишком большое), поэтому привести его здесь я не могу. Отмечу только, что в выравнивании очень много гэпов и очень мало консервативных позиций, не говоря о блоках. Это можно связать с большим числом последовательностей.


Выбор архитектур и их описание



Для моего домена известно всего 536 архитектур (пруф). Из них я выбрала вторую и третью архитектуры: {EF-hand_2, EF-hand_3, ZZ} и {ZZ, Myb_DNA-binding}. Они найдены в 507 и 349 последовательностях соответственно и представлены на рис. 4 и 5.


Рис. 4. Архитектура {EF-hand_2, EF-hand_3, ZZ}, далее обозначаемая I.
Красный — EF-hand_2, синий — EF-hand_3, зеленый —ZZ.
Рис. 5. Архитектура {ZZ, Myb_DNA-binding}, далее обозначаемая II.
Зеленый —ZZ, желтый — Myb_DNA-binding.

Сначала с помощью скрипта swisspfam_to_xls.py я отобрала последовательности с моим доменом из файла /srv/databases/pfam/swisspfam.gz, содержащего информацию об архитектуре всех последовательностей:
 python swisspfam-to-xls.py -z -i swisspfam.gz -p PF00569 -o archs.xls
Для полученной таблицы была составлена сводная таблица, в которой столбцами являются разные домены, а строками — идентификаторы белков. Исследуемый домен выделен красным, два белка из I — синим, а из II — зеленым. Затем для всех идентификаторов были скачаны соответствующие последовательности (Uniprot → Retrieve), для которых была получена таксономия с помощью скрипта uniprot_to_taxonomy.py:
 python uniprot-to-taxonomy.py -i uniprot.txt -o tax.xls
Полученная таблица с таксономией была добавлена к предыдущей. При этом я выбрала в качестве таксона было выбрано царство Metazoa (животные), а в качестве двух подтаксонов — Ecdysozoa или Линяющие (далее Е) и Chordata или Хордовые (далее С). Соответственно в столбце таксономии указаны царства и типы.

Затем с помощью небольшого скрипта я получила длины мотивов и вставила их в общую таблицу с помощью ВПР. Таким образом, была составлена таблица, представленная на листе architectures_selected, на котором выписана собранная информация о всех последовательностях. Из них было выбрано по 30 последовательностей для каждого из двух таксонов. Они отмечены "+" в колонке "selected" на упомянутом листе. Итоговая таблица: скачать.

Сохранив отдельно файл с нужной информацией, я получила два файла: ids_tax.txt с модифицированными идентификаторами и ids.txt с исходными идентификаторами при помощи несложного скрипта. Затем с помощью скрипта filter-alignment.py я оставила в выравнивании только выбранные мною последовательности:
 python filter-alignment.py -i align.fa -m ids.txt -o align_selected.fa -a "_"
Но и тут меня ждал подвох: в выравнивании осталось лишь 115 последовательностей из 120, то есть 5 последовательностей не были отобраны скриптом. Я нашла эти последовательности с помощью другого несложного скрипта и оказалось, что это Q9Y4J8, A2CI98, A2CJ06, Q8IYH5. Их идентификаторы в выравнивании отличались: DTNA_HUMAN, DYTN_MOUSE, DYTN_HUMAN, ZZZ3_HUMAN соответственно. Поэтому их мне пришлось вернуть в выравнивание вручную (спасибо, что их было всего лишь 4). К идентификаторам в полученном выравнивании с помощью скрипта я приписала выбранные обозначения для таксонов и архитектур: E1 и E2 для линяющих и C1 и C2 для хордовых в соответствии с архитектурой. соответствующие обозначения архитектур и таксонов. Итоговое выравнивание с отобранными последовательностями: align_selected.fasta.


Анализ выравнивания и дерева



После всех мучений полученный файл с выравниванием доменов выбранных последовательностей был открыт в Jalview, и я провела чистку выравнивания: были удалены пустые колонки, N- и C-участки; а потом создала две группы для архитектур и раскрасила их ClustalX (20%). Хочу отметить, что удалять последовательности я не стала, так как большая часть отличий характерна последовательностям E2. На рис. 6 представлено полученное выравнивание. Оно также доступно в виде проекта.
Рис. 6. Полученное выравнивание доменов 120 последовательностей.

На изображении выравнивания видно, что для первой архитектуры последовательности домена содержат намного больше консервативных между таксонами позиций (и меньше гэпов, так как почти все гэпы обусловлены инделями в последовательностях для второй архитектуры). В целом, в выравнивании последовательностей со первой архитектурой можно выделить целые довольно большие вертикальные блоки, в то время как в последовательностях со второй архитектурой наблюдаются большие различия. Хочу также отметить, что для второй архитектуры у последовательностей значительно варьируются последние ~10 аминокислот (причем без привязки к таксону), которые консервативны у последовательностей со первой архитектурой. Зато с началом домена все в точности наоборот: у последовательностей со первой архитектурой первые 2 позиции в выравнивании не консервативны, а у последовательностей с второй архитектурой в первой позиции большое число сходных аминокислот (отличия, опять же, связать с таксономией не выйдет).
Вообще говоря, я бы сказала, что в обоих случаях вертикальные блоки присутствуют.


Для полученного итогового выравнивания было построено дерево с помощью программы MEGA методом Neighbour-joining с использованием bootstrap (100 реплик). Полученные деревья были сохранены в формате .nwk: дерево с длинами ветвей, дерево с бутстрэп-поддержкой ветвей. Построенное дерево было укоренено в ветвь, разделяющую последовательности по архитектуре. Затем я решила укоренить дерево в среднюю точку. Для этого файл с деревом был подан на вход программе retree и переукоренен в среднюю точку. Таким образом, я получила дерево с тем же корнем: оно представлено на рис. 7. Полученное дерево также доступно в классическом виде.




Рис. 7. Построенное методом NJ + bootstrap (100 реплик) дерево. Красным выделены последовательности, относящиеся к линяющим; синим — к хордовым. Дерево отражает только топологию; длины ветвей учтены на дереве в классическом виде (см. выше)
Как видно на рис.7, укоренение в среднюю точку привело к разделению дерева на две клады, соответствующие двум архитектурам. Разделения по таксонам четкого нет: "чужие" последовательности присутствуют в кладах другого таксона. Таким образом, как мне кажется, у предкового организма уже существовало две архитектуры для данного домена, которые затем эволюционировали в типах отдельно: хорошо видно, что внутри клад по архитектурам последовательности собраны в клады по типам, внутри которых последовательности сильно схожи.

Тем не менее, в некоторых кладах присутствуют последовательности из других таксонов. Мне стало интересно, можно ли это каким-то образом объяснить. К примеру, последовательность C3XQY6_BRAFL — это домен Branchiostoma floridae или хорошо известного всем ланцетника. Он относится к типу хордовые, но на дереве последовательность домена из его белка находится в кладе линяющих. Возможно, данный домен у ланцетника слабо эволюционировал, в связи с чем его последовательность близка к последовательностям линяющих из данной клады. Интересно также отметить, что для первой архитектуры ветвь C3YT60_BRAFL (тоже ланцетник) находится близко к ветвям A0A0B4KHE2_DROME и A0A0J7LAF9_LASNI, которые находятся в упомянутой кладе с II архитектурой с последовательностью ланцетника. Получается, можно проследить некоторую схожесть в эволюции этого домена у ланцетника и упомянутых линяющих. С чем это может быть связано — сложный вопрос.

Ссылки:

[1] Klug A, Rhodes D (1987). Zinc fingers: a novel protein fold for nucleic acid recognition. Cold Spring Harbor Symposia on Quantitative Biology, 52: 473–82.
[2] Ponting CP, Blake DJ, Davies KE, Kendrick-Jones J, Winder SJ. (1996). ZZ and TAZ: new putative zinc fingers in dystrophin and other proteins. Trends Biochem. Sci. 21 (1): 11–13.