Главная | Семестры | Проекты | Обo мне | Ссылки | Заметки | Назад к оглавлению |
Эволюционные домены
Цель проекта: реконструировать эволюцию доменной архитектуры белков, содержащих один и тот же домен Pfam
Под непрерывной эволюцией будем понимать эволюцию последовательности, происходящую в силу незначительных изменений аминокислотной последовательности от поколения к поколению (и последующего отбора).
Эволюционные домены – это единицы непрерывной эволюции белков. Домены эволюционируют в составе белков, в том числе, однодоменных. Молекулярная филогения позволяет (до некоторой степени) восстановить непрерывную эволюцию домена.
В эволюции доменов происходят редкие события:
- дупликации гена, следовательно, белка
- пропажа гена, следовательно, белка
- рекомбинация ДНК или иные события или мутации, приводящие к изменению доменного состава белка
Наша цель – попытаться реконструировать эволюцию доменной архитектуры выбранного домена
- Филогения последовательностей домена позволяет реконструировать (с определенной точностью) родственные отношения между ними
- Доменная архитектура белков в сравнении с филогенетическим деревом домена позволяет предположить в каких узлах произошло изменение архитектуры
- Филогения видов, из которых получены белки, позволяет определить какие пары ветвей белков с одинаковой доменной архитектурой паралогичны, т.е. встречаются одновременно в одних и тех же видах
Далее поставили себе 6 задач, которые решали:
1. Выбрать домен. Описать доменные архитектуры белков, содержащих домен.
Выбираем домен:
- AC: PF11612
- ID: T2SJ
- Функция домена: секреторный аппарат внешней мембраны E.coli
- Ссылка на страницу домена в Pfam
Скачаем выравнивание из Pfam (Full) в JalView (File -> Fetch Sequences, выбираем БД, указываем AC семейства). Раскрасим по консервативности (ClustalX, By conservation, порог консервативности - 25). Добавим 3D структуру домена (в выравнивании найдем нужный Uniprot ID (Select -> find), свяжем последовательность с PDB кодом (щёлкнуть правой кнопкой мыши по ID, выбрать Structure -> Associate structure with sequence -> Enter PDB Id), покажем ее (View structure в том же меню)). Полученный проект по ссылке.
2. Выбрать две-три архитектуры, включающие этот домен
Получим таблицу с информацией об архитектуре всех последовательностей, содержащих выбранный домен. Для этого запустим: python swisspfam-to-xls.py -z swisspfam.gz -m pfam-AC.txt -o arch-s.xls (python swisspfam-to-xls.py -z ../../../../../../../srv/databases/pfam/swisspfam.gz -m pfam-AC.txt -o arch-s.xls). Полученный файл.
Составим список последовательностей с указанием доменной архитектуры. Для этого используем сводную таблицу в Excel: строки – AC последовательностей, столбцы – домены Pfam. И добавим в него колонки с информацией о таксономической принадлежности (cкачаем полные записи всех последовательностей (Uniprot -> Retrieve; введем список AC -> Retrieve; сохраняем flat text), получим таксономию (python uniprot-to-taxonomy.py -i flat-text.txt -o taxonomy.txt), перенесем полученную таксономию в основную таблицу с помощью ВПР (VLOOKUP)). Добавим колонку с длиной выбранного домена из каждой последовательности). Полученный файл.
В итоге выбираем архитектуры PF11612 (в сводной таблице выделен бордовым): N_methyl_2 (так же называется TS2J, но т.к. это название я буду использовать для второй выбранной архитекстуры, то использоваться будет только N_methyl_2) и TS2J.
3. Выбрать таксон и два его подтаксона для сравнения
Выбираем из таксона Bacteria подтаксоны:
- Alphaproteobacteria (A)
- Betaproteobacteria (B)
4. Выбрать не менее, чем по 15 представителей каждой из архитектур; для каждого подтаксона должно быть не менее 5 (4х) преставителей каждой архитектуры.
В колонке selected указаны выбранные последовательности. Последовательность GSPJ_PSEAE с известной 3D структурой домена PF13544 выделена выделена оранжевым (все известные 3D структуры относятся к Gammaproteobacteria, но я не стала брать этот подтаксон, т.к. он очень большой и хорошо проанализировать такое количество последовательностей в выравнивании не представляется возможным).
Выберем последовательности (в xls таблице есть отдельные списки):
N_methyl_2 (зеленые) | TS2J (желтые) | |
Alphaproteobacteria | 8 | 11 |
Betaproteobacteria | 14 | 4 (больше просто нет) |
Total | 22+1(известная 3D) | 15+1(известная 3D) |
Для дальнейшей работы оставим только отобранные мной последовательности из всех выбранных архитектур. Для этого запустим python filter-alignment.py -i ali.fasta -m selected.txt -o ali-selected.fasta. Откроем "профильтрованное" выравнвание в JalView, проверим его, отредактируем и разметим полученное выравнивание (удалим пустые колонки (Edit -> Remove Empty columns), создадим группы, по одной на каждую архитектуру (выделить имена, правой кнопкой мыши по выделенным последовательностям -> Selection -> Group -> Edit name and description), зададим раскраску в каждой группе (Group -> Color -> ClustalX или BLOSUM62; затем Group -> Color -> By conservation и подберите порог)).
Но скрипт не работает :( Поэтому непонятно, вручную делала. Полученный fasta файл ali-selected-hand.fasta.
Откроем "профильтрованное" выравнвание в JalView, удалим пустные колонки (Edit -> Remove Empty columns), создадим архитектурные группы (Selection -> Group -> Edit name and description), зададим раскраску в каждой группе (Group -> Color -> ClustalX и Group -> Color -> By conservation с порогом 25), добавим разметку по вторичной структуре для GSPJ_PSEAE (3NJE). Очень плохое выравнивае. Полученный проект selected-ali.jar. В выравнивании удалены выбивающиеся последовательности.
5. Определить таксономию каждого представителя.
Сделаем имена последовательностей говорящими. Доменная архитектура N_methyl_2 - 1, TS2J - 2, Alphaproteobacteria - A, Betaproteobacteria - B.
6. Получить и, при необходимости, отредактировать совместное выравнивание всех отобранных последовательностей домена.
Полученный проект selected-hand-ali.jar. В выравнивании удалены выбивающиеся последовательности.
7. Филогенетическое дерево
Дерево получим в MEGA методом Neighbor-joining (метод, который не использует гипотезу о молекулярных часах и строит неукоренённое дерево) дерево. Рисунок:
Рис. 1. A) Дерево, построенное методом Neighbor-joining с подкреплением Bootstrap-анализа. | Б) Тоже самое дерево, только более наглядно. |
Получили скобочную формулу.
Так как начальные ветви имеют минимальную поддержку, то сложно, что-то однозначно предполагать. Но по далее идущим ветвям можно строить какие-то предположения. Далее будем анализировать ветви, которые получили хорошую поддержку. Лиловым выделены ветви, которые имеют одинаковую архитектуру, и можно заметить что они принадлежат к одному таксону. Красным ветви, которые получили хорошую поддержку, но имеют разные архитектуры, что довольно необычно и сложно как-то нормально объяснить. Синим я выделила ветви, для которых можно заметить, что преобладает архитектура 1, встречается только один белок с доменной архитектурой 2, а т.к. эти ветви имеют значительную поддержку bootstrap, то можно предположить, что у этого белка (G0EZD9_CUPNN) эволюционно упростилась структура и возможно раньше была архитектура 1, т.к. архитектуры 1-N_methyl_2 и 2-TS2J различаются наличием в 1-N_methyl_2 домена одноименного домена - N_methyl_2.