Выбор семейства доменов
Для выполнения данного задания было выбрано семейство доменов
PF01582, Toll-Interleukin receptor (TIR). Это семейство представлено в 6950 последовательностях белков. Этот внутриклеточный сигнальный домен найден в белках MyD88, интерелейкине-1, Толл-подобных рецепторах (TLR). Он содержит 3 высококонсервативных региона, которые опосредуют белок-белковое взаимодействие между Толл-подобным рецептором и сигнальным компонентом. Кроме того он найден в некоторых растительных белках и предполагается, что он вовлечен в механизмы устойчивости к забоелваниям. После активации на TLR, TIR превлекает цитоплазматический адапторный белок MyD88 (UniProt Q99836), который запускает различные сигнальные каскады (в том числе и MAP киназные).
Выравнивание доменов этого семейства было скачено с pfam, визуализировано с помощью программы JalView. Кроме того была добавлена 3D структура белка MYD88_HUMAN (PDB ID: 2js7). Все выравнивание раскрашено ClustalX, порог консервативности - 10.
Cсылка на проект.
Выбор архитектур
Ссылка на список доменных архитектур, содержащих домены выбранного семейства. Для получение списка доменных архитектур был запущен
скрипт python swisspfam_to_xls.py -i /srv/databases/pfam/swisspfam.gz -z -p PF01582 -o task2
Дл дальнейшей работы были выбраны две архитектуры: PF00047.24 Immunoglobulin domainи PF00560.32 Leucine Rich Repeat. На рисунке 1 представлены схемы выбранных архитектур.
Рисунок 1. Графическое представление выбранных архитектур. Сверху - архитектура, содержащая иммуноглобулиновый домен, снизу - архитектура, содержащая лейцин-богатый участок
С помощью
скрипта python uniprot-to-taxonomy.py -i for_tax_uni.txt -o tax_out_new были получены данные о таксономии организмов, содержащих белки с выбранными AC.
Результат работы:
скачать. Лист all data содержит информацию о всех белках, содержащих домен TIR, на листе selected есть информация о белках, содержащих выбранные архитектуры с данными об их таксономической пренадлежности (434 штуки).
Выбор таксонов и представителей архитектур
В качестве таксона были выбраны Vertebrata, 2 подтаксона: Archelosauria (клада, объединяющая черепах, крокодилов и птиц) и Mammalia (Млекопитающие). Буквенные коды соответственно: А и M. Затем были отобраны прдествители, примерно по 30 для каждой архитектуры и таксона ( в поле selection на листе selected architecture напротив отобранных последовательностей стоит +. Кроме того к этому списку добавлен белок TLR6_HUMAN, так как для него известна 3 D структура).
python filter-alignment.py -i big_align.fasta -m to_align_new.txt -o small_align_new -a "/"
Полученное выравнивание было обработано вручную с помощью программы JalView:
- удалены пустые и неинформативные столбцы
- удалены гэпы на месте спиралей и тяжей, составляющих ядро домена
- удалены N и С концы последовательностей
- удалены последовательности, которые плохо выравнивались (программа могла найти в них домен по ошибке)
- выравнивание разбито на две группы по архитектуре, покрашены ClustalX. Скачать проект можно
здесь.
Построение филогении
Для построения филогении были закодированы доменные архитектуры (1- Leucine Rich Repeat, 2- Immunoglobulin) и подтаксоны (Archelosauria - A, Mammalia - М). Последовательности были переименованы, и итоговый файл был обработан программой Mega. Филогенетическое дерево было построено методом минимальной эволюции (ME). Для оценки достоверности ветвей был применен метод бутстрэп реплик (100 штук). На рисунке 2 представлено дерево , в котором толщина веток пропорциональная бутстрэп-поддержке.
Рисунок 2. Полученное дерево. Толщина веток отражает бутстрэп поддержку
На рисунке 3 представлено итоговое дерево, где синим цветом показаны ветви, принадлежащие Млекопитающим с архитектурой лейцинового домена, зеленым - ветви, принадлежащие Пресмыкающимся с архитектурой лейцинового домена, Фиолетовым-ветви, принадлежащие Млекопитающим с архитектурой иммуноглобулинового домена, красным - ветви Пресмыкающихся с архитектурой иммуноглобулинового домена. Из представленного дерева можно однозначно сказать, что обе доменные архитектуры были у общего предка этих организмов. Особняком от всех стоит белок
I3LD75_PIG. Этот белок является неохарактеризованным (также как и все остальные белки, гомологичные ему), поэтому сложно сто-либо говорить об его эволюции.
При обращении к архитектуре, содержащей иммуноглобулиновый домен (фиолетовые и красные ветви), можно также наблюдать дупликации генов (большая ветвь, содержащая красную и фиолетовые ветки). Кроме того, инетересна ветка, содержащая 3 красных ветви интерлекиновых рецепторов пресмыкающихся и 1 фиолетовую веть неохарактеризованного белка собаки. Возможно здесь мы также наблюдаем дупликацию генов.
Можно заметить, что гораздо более разнообразна эволюция доменов у млекопитающих. Вероятно, это связано с тем, что гораздо больше проаннотированных и отсеквенированных геномов млекопитающих, чем птиц и черепах, находится в базах даннных, поэтому случайная выборка охватывает бОльшее разнообразие белков.
Ссылка на файл, содержащий скобочную формулу дерева. Рисунки деревьев отредактированы с помощью сервера
ITOL.
Рисунок 3. Полученное дерево. Синим цветом показаны ветви, принадлежащие Млекопитающим с архитектурой лейцинового домена, зеленым - ветви, принадлежащие Пресмыкающимся с архитектурой лейцинового домена, фиолетовым-ветви, принадлежащие Млекопитающим с архитектурой иммуноглобулинового домена, красным - ветви Пресмыкающихся с архитектурой иммуноглобулинового домена.
© Ириоглов Роман 2017-2018