Реконструкция эволюции доменной архитектуры

Построение выравнивания представителей домена с разной доменной архитектурой

Таблица 1. Описание выбранного домена Pfam

ID TAF
AC PF02969
Функция TAF (Фактор, ассоциированный со связывающим TATA-бокс белком) - один из компонентов комплекса транскрипционного фактора IID. Примечательная особенность - имеет гистоноподобную укладку.
Ссылка на страницу домена Здесь
Ссылка на список архитектур Известно 18 архитектур

Ссылка на проект Jalview (выравнивание всех последовательностей семейства TAF + структура 1TAF Drosophila melanogaster)

Выбор и описание архитектур

Было выбрано две архитектуры: TAF, TAF6_C (I) - второй домен полностью называется TAF6 C-концевой домен с HEAT-повторами. HEAT-повторы образуют по две альфа-спирали, связанные короткой петлей. В домене TAF6_С находится 5 HEAT-повторов. TAF6_С участвует во взаимодействии субъединиц TFIID. Вторая архитектура (II) состоит из единственного домена TAF.

Рис.1. Изображение архитектуры I. Малиновым отмечен домен TAF6_C

Рис.2. Изображение архитектуры II.

Извлечение информации обо всех белках, содержащих домен TAF:

python swisspfam-to-xls.py -z -i /srv/databases/pfam/swisspfam.gz -p PF02969 -o res_pfam.xls

Получение информации таксонах, которым принадлежат белки с помощью информации, взятой из базы данных UniProt:

python uniprot-to-taxonomy.py -i uniprot.txt -o taxa.xls

Каждой последовательности был сопоставлен таксон с помощью функции VLOOKUP(), указаны длины доменов, а также было выбрано по 20 последовательностей каждой архитектуры в каждом таксоне (Metazoa и Fungi, список на листе ref_f). После этого последовательности из списка были извлечены из общего выравнивания командов:

python filter-alignment.py -i PF02969_full.fasta -s -m ids.txt -o selected_TAF.fasta

Ссылка на сводную таблицу

К каждому идентификатору последовательности были добавлены префиксы с помощью , после этого были построены деревья методом Maximum Likelihood в программе MEGA 7. Также выравнивание было сделано заново с помощью алгоритма Muscle в программе AliViewer.

Ссылка на проект с выравниваниями. Содержит выравнивание, выбранное из Pfam (selected_TAFp.fasta); выравнивание, сделанное заново (realign_TAFp.fasta) и структуру белка TAF6_DROME.

Ссылка на дерево, построенное методом Maximum Likelihood на основе выравнивания из базы Pfam.

Ссылка на консенсусное дерево, построенное с помощью бутстрепа предыдущего.

Ссылка на дерево, построенное методом Maximum Likelihood на основе заново построенного выравнивания.

Ссылка на консенсусное дерево, построенное с помощью бутстрепа предыдущего.

Рис.3. Визуализация дерева на основе выравнивания из базы Pfam.

Рис.4. Визуализация консенсусного дерева, построенного с помощью бутстрепа предыдущего.

Рис.5. Визуализация дерева на основе выравнивания de novo.

Рис.6. Визуализация консенсусного дерева, построенного с помощью бутстрепа предыдущего.

Красным обозначена архитектура I у Metazoa, синим - архитектура II у Metazoa, бирюзовым - архитектура I у Fungi, фиолетовым - архитектура II у Fungi.

Как можно увидеть, у обоих деревьев близкие к корню ветви имеют низкую поддержку бутстрепа. Также видно довольно нечеткое разделение по архитектурам/таксонам. Так, отсутствует ветвь, в которой преимущественно была бы представлена архитектура II у Metazoa. Если предполагать правильность построения дерева, то можно предположить наличие у последнего общего предка (LCA) Metazoa и Fungi двух копий гена белков архитектуры I. У Fungi только одна копия превратилась в архитектуру II путем утраты домена. У Metazoa же образования белка архитектуры II происходило независимо из разных копий. Также нельзя исключать возможности ошибочной аннотации, например, приведшей к неверному обозначению границ белка, что могло быть проинтерпретировано, как архитектура II.


© Котюргин Александр, 2015