Отчет по практикуму 11. Реконструкция эволюции доменной архитектуры.

Отчет по практикуму 11. Реконструкция эволюции доменной архитектуры.

Выбор объектов и получение выравнивания


Для работы был выбран домен GntR (ID:GntR , AC:PF00392), принадлежащий семейству GntR .
GntR-бактериальные транскрипционные факторы - семейство бактериальных транскрипционных факторов. Многие бактериальные транскрипционные регуляторные белки связывают ДНК через a мотивы спираль-поворот-спираль (HTH), которые могут быть классифицированы в подсемейства на основе похожести последовательностей. Семейство HTH GntR family имеет много представителей, распределяемых среди различных групп бактерий, кторые регулируют разные биологические процессы. Они называются GntR после репрессора глюкозного оперона Bacillus subtilis.[1] Семейство включает GntR, HutC, KorA, NtaR, FadR, ExuR, FarR, DgoR, PhnF и PlmA.[2] Кристаллическая структура белка FadR известна.[3] В общем, эти белки содержат ДНК-связывающие HTH домены на N-конце, и эффектор-связывающие или олигомерные домены на C-конце. ДНК-связывающие домены высококонсервативны в структуре для всего семейства, состоящего из 3-цепочечных связок ядер с маленькими бета-листами (крыльев); GntR обеспечивает спиральную структуру крыльями похожим образом на то как это обнаружено во многих других семействах транскрипционных регуляторов. Регионы снаружи от ДНК-связывающего домена более вариабельны и следовательно используются для определения GntR подсемейств.[4] Выбранный домен входит в состав бактериальных транскрипционных факторов. В семействе Pham данного домена приведены 112 доменные архитектуры. В семействе Pham данного домена 44936 последовательности, они принадлежат 348 видам. Изображения выбранных доменных архитектур приведены на рисунках 1-2.

Рис. 1. Доменная архитектура GntR, Peripla_BP_3.


Рис. 2. Доменная архитектура GntR, FadR_C.


Доменная архитектура GntR, Peripla_BP_3 содержит 686 последовательностей, доменная архитектура GntR, FadR_C содержит 246 последовательности. Для 106 последовательностей известна 3D структура.Для дальнейшей работы я выбрал 2 архитектуры. Информация о них приведена в Таблице 1.
Доменный составЧисло представителейИзображение
GntR, Peripla_BP_3686
GntR, FadR_C246
Затем из Pham было скачано выравнивание всех последовательностей, содержащих домен GntR. Далее помощью Jalview было построено выравнивание всех последовательностей, содержащих домен PAGL_PSEAE. Полученное выравнивание приведено ниже.
Выравнивание в формате mfa
Выравнивание в формате msf
Выравнивание в формате Clustal
Весь проект
Для получения информации об архитектуре всех последовательностей и отбора последовательностей, содержащих домен PAGL_PSEAE, был использован скрипт swisspfam-to-xls.py, который отбирает последовательности с указанным доменом и составляет таблицу для Excel. Файл swisspfam для всех последовательностей Uniprot скачан на kodomo. Чтобы получить информацию конкретно для моего домена, в качестве параметра -p был указан необходимый Pfam AC.
Использованная команда:
 python swisspfam-to-xls.py -z ../../../../../../../../srv/databases/pfam/swisspfam.gz -p PF09441 -o res.xls 
Полученный файл:res.xls.
Далее из БД Uniprot были скачаны последовательности, AC которых был в файле res.xls. В результате был получен файл r.txt. Для получения таксономии использовалась команда:
python uniprot-to-taxonomy.py -i r.txt -o p.xls 
В результате был получен файл p.xls. Далее в итоговый файл была добавлена таксономия и колонка с длиной выбранного домена из каждой последовательности. Результаты представлены в файле u.xlsx В качестве таксона был выбран таксон Bacteria, а в качестве подтаксонов были выбраны Firmicutes(F) и Verrucomicrobia(V). Затем при помощи команды
python filter-alignment.py -i 110.mfa -o ali.fasta -a "/" 
выравнивание было отфильтровано. Затем к идентификаторам были добавлены следующие мнемоники:
F1 - подтаксон Firmicutes, архитектура 1 (GntR, Peripla_BP_3)
F2 - подтаксон Firmicutes, архитектура 2(GntR, FadR_C)
V1 - подтаксон Verrucomicrobia, архитектура 1
V2 - подтаксон Verrucomicrobia, архитектура 2
Для изменения идентификаторов последовательностей использовался скрипт l.py. Затем в Jalview было построено выравнивание последовательностей с измененными именами. Затем "профильтрованное" выравнивание с измененными именами было открыто в Jalview и отредактировано. После удаления последовательностей, плохо выровненных с остальными, качество выравнивания улучшилось, доля гэпов сократилась, количество консервативных колонок немного увеличилось. Были удалены пустые колонки, выравнивание выровненио программой Muscle заново и созданы 2 группы, соответсвующие архитетурам 1, 2. В каждой группе отдельно была задана окраска по ClustalX. В итоге было получено отфильтрованное выравнивание.
Весь проект.

Построение филогенетического дерева домена

На основе выравнивания, содержащего последовательности общего для всех представителей домена, методом Neighbour Joining было построено филогенетическое дерево (Рис. 4).
Рис. 4. Неукорененноное дерево.
Неукорененноное дерево
Укорененноное дерево
Игнорируя ветви с низким bootstpap мы можем утверждать, что у общего предка была одна доменная архитектура, затем произошло разделение на 2 таксона, затем в каждом таксоне независимо появились 2 доменные архитектуры, причем переход от одной архитектуры к другой происходил неоднократно(эволюционное событие перехода от 1 архитектуры к другой было неоднократным).

Ссылки:


[1] Haydon DJ, Guest JR (April 1991). "A new family of bacterial regulatory proteins". FEMS Microbiol. Lett. 63 (2-3): 291–5. doi:10.1016/0378-1097(91)90101-f. PMID 2060763.
[2] Lee, Martin H.; Scherer, Michael; Rigali, Sebastien; Golden, James W. (2003-08-01). "PlmA, a new member of the GntR family, has plasmid maintenance functions in Anabaena sp. strain PCC 7120". Journal of Bacteriology. 185 (15): 4315–4325. doi:10.1128/jb.185.15.4315-4325.2003. ISSN 0021-9193. PMC 165748. PMID 12867439.
[3] van Aalten DM, DiRusso CC, Knudsen J, Wierenga RK (October 2000). "Crystal structure of FadR, a fatty acid-responsive transcription factor with a novel acyl coenzyme A-binding fold". EMBO J. 19 (19): 5167–77. doi:10.1093/emboj/19.19.5167. PMC 302096. PMID 11013219.
[4] Rigali S, Derouaux A, Giannotta F, Dusart J (April 2002). "Subdivision of the helix-turn-helix GntR family of bacterial regulators in the FadR, HutC, MocR, and YtrA subfamilies". J. Biol. Chem. 277 (15): 12507–15. doi:10.1074/jbc.M110968200. PMID 11756427.