Вернуться на страницу семестров
Эволюционные домены
Задание 1. Выбор домена. Описание доменной архитектуры белков, содержащих домен.
Ниже в таблице, и на картинке предоставлена вся информация, которая нам интересна.
AC
ID
Функция домена
Ссылка на страницу домена в Pfam
PF14759
Reductase_С
Reductase C-terminal
http://pfam.xfam.org/family/PF14759
Далее необходимо было открыть JalView, скачать выравнивание из Pfam (Full), и прикрепить к одной из последовательностей 3-D структуру. По базе Uniprot запись (Q2GBV9_NOVAD), что интересно, открыв выравнивание в JalView, данная последовательность (Q2GBV9_NOVAD), выделена оранжевым цветом. Раскрасил по консервативности (ClustalX, с порогом By conservation = 10%). Файл прикреплен ниже.
Ссылка на выравнивание в формате jar
Изображение выравнивания c 3-D структурой для некоторого эстетического дополнения
Задание 2. Выбрать две-три архитектуры, включающие этот домен.
1) C помощью скрипта swisspfam-to-xls.py и файла, лежащего на кодомо, и содержащего информацию об архитектуре всех последовательностей Uniprot, был получен файл swisspfam_to_xls_out.txt. Выходные данные: Pfam AC или файл со списком Pfam ACs.
Ссылка на выходной файл, полученный командой выше.
2) Затем данные были переведены в таблицу Exell, где была составлена сводная таблица, и скриптом python uniprot_to_taxonomy.py была получена таксономия. Столбцы с таксономией также добавлены в таблицу в помощью VLOOKUP, также подсчитаны длины последовательностей доменов. Таблица в формате xls со всеми данными прикпреплена ниже. Вся самая важная информация на листе "главная информация".
Ссылка на сводную таблицу в Exell-формате
Выбранные архитектуры:
Задание 3. Выбор таксона и подтаксонов.
✧ Поскольку я выбрал отличный домен, у меня появился соблазн взять в качестве таксона все "cellular organisms", а все три царства – как подтаксоны (Archaea, Bacteria, Eukaryota).
Задания 4-6. Выбор представителей архитектур. Построение выравнивания.
✧ По выбранным выше архитектурам отобрал последовательности, файл с таксономией можно скачать ниже.
Ссылка на таблицу в Exell-формате c выборкой представителей по архитектурам.
Далее с помощью Uniprot -> Retrieve получил последовательности для архитектур 1 и 2. Ниже прикреплены fasta-файлы.
Ссылка на последовательности первой архитектуры.
Ссылка на последовательности второй архитектуры.
Подготовка к выравниванию: сделал общий fasta-файл, содержащий последовательности, далее в выравнивание введены следующие обозначения:
1 - первая 4-ех доменная архитектура (Pyr_redox_2, Pyr_redox, Reductase_C, Rieske)
2 - вторая 3-ех доменная архитектура (Pyr_redox_2, Pyr_redox, Reductase_C)
ARC - археи
BAC - бактерии
EUK - эукариоты
✧ Ниже представлены изображение и проект jar c выравниванием, были выполнены указания по сортировке.
Ссылка на выравнивание в формате jar
✧ Вывод: одну последовательность пришлось вырезать, так как она плохо выравнивалась (A1L230_DANRE). На выравнивание можно четко увидеть домен Reductase_C, входящий в обе архитектуры, причем этот домен присутствует у архей, у бактерий и у эукариот. Домен на выравнивании представлен правильно, поскольку в качестве концов выбиралась последовательность, в которой по Pfam были круглые концы.
Эволюционные домены (продолжение)
Задание 1. Построить филогенетическое дерево по выравниванию представителей домена, полученному выше.
✧ Поскольку, совершенно случайно, я итак сделал имена последовательностей говорящими выше, но немного не так, как просили в задании, думаю мой вариант тоже пойдет. Еще раз о легенде:
1 - первая 4-ех доменная архитектура (Pyr_redox_2, Pyr_redox, Reductase_C, Rieske)
2 - вторая 3-ех доменная архитектура (Pyr_redox_2, Pyr_redox, Reductase_C)
ARC - археи
BAC - бактерии
EUK - эукариоты
✧ Программой MEGA нужно получить деревья любым методом, но выбранный метод не должен предполагать молекулярные часы и должен выдавать длины ветвей, поэтому я выбрал метод Maximum Likelihood, причем построил с использованием bootstrap-анализа с количеством реплик = 100. Ниже скобочная формула, подредактированное изображение дерева и выводы.
✧ Ccылка на выравнивание для построения дерева в fasta-формате
✧ Ссылка на скобочную формулу original tree
✧ Ссылка на скобочную формулу bootstrap consensus tree
1) Original tree
2) Bootstrap consensus tree (редактированное и укорененное)
Вывод: структура дерева правильная. Причем, методом проб и ошибок, было проверено, что данное дерево по одному конкретному домену в двух архитектурах практически ничем не отличается от дерева, построенного по полным белковым последовательностям. Слабую поддержку имеет ветвь, отделяющая архей столь неправдоподобно, с чем я согласен. Однако на редактированном bootstrap consensus tree укоренил как раз в архей, получилось дерево, которое я считаю наиболее правильным, поскольку общий предок имел более простую архитектуру, однако и эукариот и у бактерий на С-конце появляется новый домен Rieske, что значительно усложняет архитектуру, а следовательно, появились новые функции белка. Независимые делеции С-концевого участка четко видно на примере A2W7M1_9BURK и D5BFN2_PUMNI. На original tree можно увидеть, что ветки отделяющие этих представителей имеют слабую поддержку.