Построение выравнивания представителей домена с разной доменной архитектурой
Таблица 1. Описание выбранного домена Pfam
ID | TAF |
AC | PF02969 |
Функция | TAF (Фактор, ассоциированный со связывающим TATA-бокс белком) - один из компонентов комплекса транскрипционного фактора IID. Примечательная особенность - имеет гистоноподобную укладку. |
Ссылка на страницу домена | Здесь |
Ссылка на список архитектур | Известно 18 архитектур |
Выбор и описание архитектур
Было выбрано две архитектуры: TAF, TAF6_C (I) - второй домен полностью называется TAF6 C-концевой домен с HEAT-повторами. HEAT-повторы образуют по две альфа-спирали, связанные короткой петлей. В домене TAF6_С находится 5 HEAT-повторов. TAF6_С участвует во взаимодействии субъединиц TFIID. Вторая архитектура (II) состоит из единственного домена TAF.
Рис.1. Изображение архитектуры I. Малиновым отмечен домен TAF6_C
Рис.2. Изображение архитектуры II.
Извлечение информации обо всех белках, содержащих домен TAF:
python swisspfam-to-xls.py -z -i /srv/databases/pfam/swisspfam.gz -p PF02969 -o res_pfam.xls
Получение информации таксонах, которым принадлежат белки с помощью информации, взятой из базы данных UniProt:
python uniprot-to-taxonomy.py -i uniprot.txt -o taxa.xls
Каждой последовательности был сопоставлен таксон с помощью функции VLOOKUP(), указаны длины доменов, а также было выбрано по 20 последовательностей каждой архитектуры в каждом таксоне (Metazoa и Fungi, список на листе ref_f). После этого последовательности из списка были извлечены из общего выравнивания командов:
python filter-alignment.py -i PF02969_full.fasta -s -m ids.txt -o selected_TAF.fasta
К каждому идентификатору последовательности были добавлены префиксы с помощью , после этого были построены деревья методом Maximum Likelihood в программе MEGA 7. Также выравнивание было сделано заново с помощью алгоритма Muscle в программе AliViewer.
Ссылка на проект с выравниваниями. Содержит выравнивание, выбранное из Pfam (selected_TAFp.fasta); выравнивание, сделанное заново (realign_TAFp.fasta) и структуру белка TAF6_DROME.
Ссылка на дерево, построенное методом Maximum Likelihood на основе выравнивания из базы Pfam.
Ссылка на консенсусное дерево, построенное с помощью бутстрепа предыдущего.
Ссылка на дерево, построенное методом Maximum Likelihood на основе заново построенного выравнивания.
Ссылка на консенсусное дерево, построенное с помощью бутстрепа предыдущего.
Рис.3. Визуализация дерева на основе выравнивания из базы Pfam.
Рис.4. Визуализация консенсусного дерева, построенного с помощью бутстрепа предыдущего.
Рис.5. Визуализация дерева на основе выравнивания de novo.
Рис.6. Визуализация консенсусного дерева, построенного с помощью бутстрепа предыдущего.
Красным обозначена архитектура I у Metazoa, синим - архитектура II у Metazoa, бирюзовым - архитектура I у Fungi, фиолетовым - архитектура II у Fungi.
Как можно увидеть, у обоих деревьев близкие к корню ветви имеют низкую поддержку бутстрепа. Также видно довольно нечеткое разделение по архитектурам/таксонам. Так, отсутствует ветвь, в которой преимущественно была бы представлена архитектура II у Metazoa. Если предполагать правильность построения дерева, то можно предположить наличие у последнего общего предка (LCA) Metazoa и Fungi двух копий гена белков архитектуры I. У Fungi только одна копия превратилась в архитектуру II путем утраты домена. У Metazoa же образования белка архитектуры II происходило независимо из разных копий. Также нельзя исключать возможности ошибочной аннотации, например, приведшей к неверному обозначению границ белка, что могло быть проинтерпретировано, как архитектура II.