Эволюционные домены

Задание 1. Выбор домена. Описание доменной архитектуры белков, содержащих домен.

Ниже в таблице, и на картинке предоставлена вся информация, которая нам интересна.

AC	ID	Функция домена	Ссылка на страницу домена в Pfam
PF14759	Reductase_С	Reductase C-terminal	http://pfam.xfam.org/family/PF14759

Далее необходимо было открыть JalView, скачать выравнивание из Pfam (Full), и прикрепить к одной из последовательностей 3-D структуру. По базе Uniprot запись (Q2GBV9_NOVAD), что интересно, открыв выравнивание в JalView, данная последовательность (Q2GBV9_NOVAD), выделена оранжевым цветом. Раскрасил по консервативности (ClustalX, с порогом By conservation = 10%). Файл прикреплен ниже.

Ссылка на выравнивание в формате jar

Изображение выравнивания c 3-D структурой для некоторого эстетического дополнения

Задание 2. Выбрать две-три архитектуры, включающие этот домен.

1) C помощью скрипта swisspfam-to-xls.py и файла, лежащего на кодомо, и содержащего информацию об архитектуре всех последовательностей Uniprot, был получен файл swisspfam_to_xls_out.txt. Выходные данные: Pfam AC или файл со списком Pfam ACs.

Ссылка на выходной файл, полученный командой выше.

2) Затем данные были переведены в таблицу Exell, где была составлена сводная таблица, и скриптом python uniprot_to_taxonomy.py была получена таксономия. Столбцы с таксономией также добавлены в таблицу в помощью VLOOKUP, также подсчитаны длины последовательностей доменов. Таблица в формате xls со всеми данными прикпреплена ниже. Вся самая важная информация на листе "главная информация".

Ссылка на сводную таблицу в Exell-формате

Выбранные архитектуры:

Задание 3. Выбор таксона и подтаксонов.

✧ Поскольку я выбрал отличный домен, у меня появился соблазн взять в качестве таксона все "cellular organisms", а все три царства – как подтаксоны (Archaea, Bacteria, Eukaryota).

Задания 4-6. Выбор представителей архитектур. Построение выравнивания.

✧ По выбранным выше архитектурам отобрал последовательности, файл с таксономией можно скачать ниже.
Ссылка на таблицу в Exell-формате c выборкой представителей по архитектурам.

Далее с помощью Uniprot -> Retrieve получил последовательности для архитектур 1 и 2. Ниже прикреплены fasta-файлы.
Ссылка на последовательности первой архитектуры.
Ссылка на последовательности второй архитектуры.

Подготовка к выравниванию: сделал общий fasta-файл, содержащий последовательности, далее в выравнивание введены следующие обозначения:
1 - первая 4-ех доменная архитектура (Pyr_redox_2, Pyr_redox, Reductase_C, Rieske)
2 - вторая 3-ех доменная архитектура (Pyr_redox_2, Pyr_redox, Reductase_C)
ARC - археи
BAC - бактерии
EUK - эукариоты

✧ Ниже представлены изображение и проект jar c выравниванием, были выполнены указания по сортировке.

Ссылка на выравнивание в формате jar

✧ Вывод: одну последовательность пришлось вырезать, так как она плохо выравнивалась (A1L230_DANRE). На выравнивание можно четко увидеть домен Reductase_C, входящий в обе архитектуры, причем этот домен присутствует у архей, у бактерий и у эукариот. Домен на выравнивании представлен правильно, поскольку в качестве концов выбиралась последовательность, в которой по Pfam были круглые концы.

Эволюционные домены (продолжение)

Задание 1. Построить филогенетическое дерево по выравниванию представителей домена, полученному выше.

✧ Поскольку, совершенно случайно, я итак сделал имена последовательностей говорящими выше, но немного не так, как просили в задании, думаю мой вариант тоже пойдет. Еще раз о легенде:
1 - первая 4-ех доменная архитектура (Pyr_redox_2, Pyr_redox, Reductase_C, Rieske)
2 - вторая 3-ех доменная архитектура (Pyr_redox_2, Pyr_redox, Reductase_C)
ARC - археи
BAC - бактерии
EUK - эукариоты

✧ Программой MEGA нужно получить деревья любым методом, но выбранный метод не должен предполагать молекулярные часы и должен выдавать длины ветвей, поэтому я выбрал метод Maximum Likelihood, причем построил с использованием bootstrap-анализа с количеством реплик = 100. Ниже скобочная формула, подредактированное изображение дерева и выводы.

✧ Ccылка на выравнивание для построения дерева в fasta-формате
✧ Ссылка на скобочную формулу original tree
✧ Ссылка на скобочную формулу bootstrap consensus tree

1) Original tree

2) Bootstrap consensus tree (редактированное и укорененное)

Вывод: структура дерева правильная. Причем, методом проб и ошибок, было проверено, что данное дерево по одному конкретному домену в двух архитектурах практически ничем не отличается от дерева, построенного по полным белковым последовательностям. Слабую поддержку имеет ветвь, отделяющая архей столь неправдоподобно, с чем я согласен. Однако на редактированном bootstrap consensus tree укоренил как раз в архей, получилось дерево, которое я считаю наиболее правильным, поскольку общий предок имел более простую архитектуру, однако и эукариот и у бактерий на С-конце появляется новый домен Rieske, что значительно усложняет архитектуру, а следовательно, появились новые функции белка. Независимые делеции С-концевого участка четко видно на примере A2W7M1_9BURK и D5BFN2_PUMNI. На original tree можно увидеть, что ветки отделяющие этих представителей имеют слабую поддержку.