Saturday, May 13, 2017. Posted by Marina Gladkova

Реконструкция эволюции доменной архитектуры.

Задание 1. Выбор объектов и получение выравнивания.



1. Выбор домена


Для работы был взят центральный домен фактора элонгации транскрипциии TFIIS семейства TFIIS_M (AC: PF07500). Фактор транскрипции S-II (TFIIS) индуцирует расщепление мРНК за счет усиления нуклеазной активности РНК-полимеразы (Pol) II. Он широко распространен среди млекопитающих, дрозофил, дрожжей и архебактерий. Белки S-II имеют относительно консервативную С-концевую область, но вариабельную N-концевую область, а некоторые члены этого семейства тканеспецифично экспрессируются. [1]

2. Выбор доменных архитектур


В выбранное семейство входят 56 различных доменных архитектур, представленных 2341 последовательностью в 804 видах. Среди всех доменных архитектур были выбраны следующие:

I (Med26, TFIIS_M, TFIIS_C)II (PHD, TFIIS_M, SPOC)
Схема
Число последовательностей887453
Характеристика соседствующих доменовMed26 (PF08711) - медиатор РНК-полимеразы 2 транскрипционной субъединицы 26, входит в состав медиаторного комплекса.
TFSIIS_C (PF01096) - субъединица С.
PHD (PF00628) - PHD-палец, Cys4-His-Cys3 мотив гомеодоменных белков HAT3.
SPOC (PF07744) - Spen paralogue and orthologue C-terminal, участвует в сигналлинге, связанном с развитием.

3-6. Выбор таксонов и подтаксонов, получение их совместного выравнивания


Визуализация таксономии последовательностей, входящих в семейство TFIIS_M. [2]



В качестве таксона были выбраны эукариоты, подтаксоны, соответственно, - царства метазои и грибы. Таблица с информацией об архитектуре всех последовательностей, содержащих выбранный домен была получена следующим образом. Файл swisspfam со архитектурами последовательностей Uniprot доступен на сервере kodomo (/srv/databases/pfam/swisspfam.gz). Он был обработан скриптом swisspfam_to_xls.py:
python swisspfam_to_xls.py -z /srv/databases/pfam/swisspfam.gz -p PF07500
-o PF07500.xls
В Excel файл была создана сводная таблица по последовательностям и соответствующим архитектурам и таксономии. Использовался скрипт uniprot_to_taxonomy.py, которому на вход был подан список с таксономией:
python uniprot_to_taxonomy.py -i taxa.txt -o taxa.xls
В таблицу были добавлены таксономия с помощью ВПР (VLOOKUP) и колонка с длиной домена для данной последовательности. Последовательности, удовлетворяющие условиям "Указаний", представлены на отдельном листе.


Для построения выравнивания выбранных мной последовательностей использовался скрипт filter_alignment.py, принимающий на вход fasta-файл со последовательностями, где встречается домен PF07500, и список ID последовательностей, которые надо извлечь (опция -a "/" для отделения имени от координат):
python filter-alignment.py -i all_ali.mfa -m ids -o my_ali.fasta -a "/"
При редактировании выравнивания каждой последовательности был присвоен двухсимвольный идентификатор, соотвествующий субтаксону и номеру архитектуры - F1, F2, M1 или M2. Были удалены пустые колонки и плохо выровненные последовательности (в итоге в каждой подгруппе примерно по 20 последовательностей), а также созданы 2 группы, соответсвующие архитектурам 1 и 2 (покраска BLOSUM62 c порогом по консервативности 30%).





Задание 2. Построение филогенетического дерева домена.



На основе выравнивания, содержащего последовательности общего для всех представителей домена, в программе MEGA методом Minimum Evolution с Bootstrap-тестом было построено филогенетическое дерево. Изображение дерева отредактировано в программе iTOL. Величина бутстрэпа отражена в толщине ветвей, цвету фуксии соотвествует подтаксон Fungi, бледно-розовым обозначен подтаксон Metazoa. Названия последовательностей, относящихся к архитектуре 1, покрашены фиолетовым цветом, оставшиеся имеют архитектуру 2.

Филогенетическое дерево эволюции доменов (iTOL)



Филогенетическое дерево эволюции доменов (MEGA)



Получилось дерево, где 4 крупные клады соотвествуют каждой из подгрупп F1, F2, M1, M2, однако не наблюдается деления только по архитектурам или только по подтаксонам (т.к. F1 объединена в кладу с М2, а F2 объединена с M1). У M1 и M2 наблюдаются хорошие поддержки (93 и 85). Предположим, что дерево правильно отражает эволюцию домена PF07500 и корень найден верно. Обозначим две верхние клады за Y, а две нижние - за X. Можно видеть, что разделение F1 произошло раньше, чем отделилась F2, значит, 1' (который потом разошелся по таксонам, как, условно, 1Y и 1X) был у общего предка. Независимо от F2, на ветви X также возникает 2 архитектура. Таким образом, LСА имел 1 архитектуру, архитектура 2 возникала несколько раз на разных ветвях.

Источники