Реконструкция эволюции доменной архитектуры

Задание 1. Построить выравнивание представителей домена Pfam белков с разной доменной архитектурой

Выбор домена. В данном пункте необходимо было выбрать домен. Я выбрала: KH domain (ID: KH_7; AC: PF17214). Ссылка на страницу домена в Pfam. Данный домен содержится в 204 последовательностях у 198 видов; для него известно 10 архитектур. K гомологичный домен (KH domain) является эволюционно-консервативным примерно 70 кислотам, данный домен широко представлен в самых разнообразных белках, связывающих нуклеиновые кислоты. KH домен связывается с РНК или одноцепочечной ДНК и способен участвовать в узнавании РНК. Также для данного домена известно 6 3D структур для 3-ех белков. Ссылка на страницу Pfam с доменными архитертурами

JalView. Выравнивание было скачано из Pfam (Full): в JalView: File > Fetch Sequences > Pfam (Full) > PF17214; и покрашено ClustalX (By conservation: 30). Ссылки: проект JalView; выравнивание в fasta-формате. На рисунке 1 представлено изображение выравнивания.

Рис. 1 - Выравнивание последовательностей в раскраске Clustalx

Выбор 2 архитектур, включающих мой домен. Мой домен включают в себя 10 архитектур, среди которых всего 4 архитектуры соответствуют требованию: существует не менее 20 последовательностей с данной архитектурой. Были выбраны две четырехдоменные архитектуры, информация по которым представлена в таблице 1.

Таблица 1. Выбор архитектур

*Номер архитектуры*	*Домены*	*Число представителей*	*Краткая характеристика других доменов*
№1	KH_7, Lactamase_B_6, Beta-Casp, RMMBL	109	Beta-Casp: данный домен примыкает C-концом к beta-lactamase домену в эндонуклеазе, процессирующей 3'-конец премРНК. Активный центр фермента располагается на стыке этих 2 доменов. Lactamase_B и Lactamase_B_6: данные домены содержатся в основном в классе B бетта-лактамаз и и в некоторых других белках. Металло-бетта-лактамазы - важные фепменты, участвующие в процессе разрушения антибиотиков в антибиотик-резистентных бактериях. RMMMBL: Этот домен добавляет существенные структурные элементы в CASP-домен и является уникальным для РНК / ДНК-нуклеаз обработки, показывая, что они являются пре-мРНК-3'-процессирующими ээндонуклеазами.
№2	KH_7, Lactamase_B, Beta-Casp, RMMBL	27

Рис. 2 - Изображение архитектуры №1 - зеленым обозначен домен KH_7, желтым - RMMBL

Рис. 3 - Изображение архитектуры №2 - зеленым обозначен домен KH_7, желтым - RMMBL

Получение таблицы с информацией об архитектуре всех последовательностей. Файл swisspfam, содержащий эту информацию для всех последовательностей Uniprot, лежит в папке: /srv/databases/pfam/swisspfam.gz. Был использован скрипт swisspfam_to_xls.py, который отбирает последовательности с моим доменом и составляет Excel-таблицу - команда (1). Таким образом, был получен файл arc.xls. Далее необходимо было составить сводную таблицу: строки – AC последовательностей, столбцы – домены Pfam. В список последовательностей были добавлены колонки с информацией по таксономии: Uniprot > Retrieve > Cписок AC. Был получен файл list.txt, который был подан на вход питону: скрипт uniprot_to_taxonomy.py; команда (2). Полученная таксономия была перенесена в основную таблицу. Также был добавлен лист с длинами выбранных доменов из каждой последовательности.

(1) python swisspfam-to-xls.py -z -i swisspfam.gz -p PF17214 -o arc.xls (2) python uniprot-to-taxonomy.py -i list.txt -o taxonomy.xls

Выбор таксона и подтаксона. В качестве таксона: Archaea. Euryarchaeota не делится на подтаксоны, состоящие из > 20 последовательностей, поэтому было принято решение за один подтаксон принять Euryarchaeota (E), а за другой (условно) - совокупность представителей Crenarchaeota и Thaumarchaeota (CT). Далее необходимо было выбрать последовательности так, чтобы в каждом подтаксоне от каждой архитектуры было по 20 последовательностей. С первой архитектурой не возникло проблем - она довольно распространена. А вот найти 20 последовательностей с 2-ой архитектурой оказалось невозможным: нашлось 7 последовательностей для E, 6 - для CT. Недостаток компенсировался последовательностями 1 архитектуры. Ссылка на итоговую таблицу.

Таблица 2. Поиск подтаксонов

*Название подтаксона*	*Число представителей*
Euryarchaeota	76
Crenarchaeota	18
Thaumarchaeota	6
Candidatus Bathyarchaeota/environmental samples/not stated	25

Последовательности выбранных представителей примерно одинаковы по длине доменов, поэтому особых проблем возникнуть не должно. В выравнивании были оставлены только выбранные последовательности. Для этого: был получен файл с id выбранных последовательностей (ссылка). Далее с помощью команды (1) было получено выравнивание моих последовательностей, к id которых я добавила подтаксон и архитектуру (CT[1,2];E[1,2]). Полученное выравнивание в fasta-формате. Выравнивание было открыто в JalView: были убраны пустые колонки (Edit > Remove Empty Columns), были созданы группы (по архитектурам: Selection > Create Group > Edit name and description), также я подчистила N,C-участки и отсортировала по группе (Calculate > Sort). 1-ая группа была покрашена ClustalX (conservation: 30), 2-ая - BLOSUM62 (conservation: 30) (рис. 4). Особо выбивающихся последовательностей я не нашла, поэтому ничего удалять не стала. Ссылка на проект JalView.
В выравнивании группы 1 можно четко выделить 2 блока консервативных/полуконсервативных колонок. Не может не радовать тот факт, что эти блоки можно относительно соотнести с блоками выравнивания группы 2. Присутствует несколько консервативных колонок, которые были бы абсолютно консервативны, если бы не пара последовательностей; абсолютно консервативные колонки. На мой взгляд, выравнивание приемлимое, поэтому строить дерево можно.

Рис. 4 - Выравнивание последовательностей

(1) python filter-alignment.py -i Domain_1.fasta -m id.txt -o pr11.fasta -a "_"

Задание 2. Построение филогенетического дерева домена

Было построено дерево по полученному в предыдущем задании выравниванию. Обозначения: подтаксоны: Euryarchaeota (E), Crenarchaeota и Thaumarchaeota (CT); архитектуры: 1, 2 (в соответствии с таблицей 1). Таким образом, обозначение каждой последовательности: подтаксон(архитектура)_ID. Для построения дерева были использованы: программа MEGA; метод NJ; бутстреп (100 реплик). Скобочная структура дерева представлена здесь. MEGA построила дерево представленное на рисунке 5.1. Однако мне не понравилось выбранное укоренение, и я решила переукоренить сама. В переукорененном мной дереве есть более четкое деление на таксоны (из него выделяется всего 1 последовательность подтаксона E) - рисунок 5.2. Какого-то четкого разделения на архитектуры в подтаксонах не наблюдается, откуда можно сделать вывод, что нельзя точно предсказать какие именно эволюционные события происходили.

Рис. 5 - Дерево до и после переукоренения - увеличение при нажатии. Синий цвет - ветви, все листья которых принадлежат подтаксону E; красный цвет - подтаксону CT.