Построение выравнивания представителей домена Pfam белков с разной доменной архитектурой
Для работы я выбрала домен Cytochrome_7. Он заинтересовал меня при работе над моим курсовым проектом.
Цитохром c — небольшие гем-содержащие белки, относятся к классу цитохромов, содержат в структуре гем типа c.
Выполняют в клетке две функции. С одной стороны, являются одноэлектронными переносчиками свободно связанными с внутренней мембраной митохондрий,
и необходимым компонентом дыхательной цепи. Способны окисляться и восстанавливаться, но не связывают при этом кислород.
С другой стороны, при определённых условиях могут отсоединяться от мембраны, переходить в раствор в межмембранном пространстве и активировать апоптоз.
Такая двойственность связана со специфичными свойствами молекулы цитохрома c. [1]
Таблица 1. Описание выбранного домена
Характеристика |
Данные |
Название |
Cytochrome c7 and related cytochrome c |
AC |
PF14522 |
ID |
Cytochrome_C7 |
Функции |
Одноэлектронные переносчики, а также одни из активаторов апоптоза. |
Число архитектур |
39 |
Число последовательностей |
832 |
Число видов |
471 |
Известные структуры |
14 |
Ссылка |
Cyt c on pfam.xfam.org |
Список доменных архитектур для данного семейства:
[ссылка]
Для данного домена было построено выравнивание с помощью программы JalView.
В качестве расскраски по консервативности использовалась Crustal, by conservation 30%.
Также к выравниванию была добавлена 3D структура белка T2G9Q2_DESGI (PDB ID: 1Z1N)
Для описания были выбраны две доменные архитектуры:
двудоменная - Cytochrome_C7 x 2, представленная
36 последовательностями (рисунок 1) и вторая однодоменная -
Cytochrome_C7, представленная 322 последовательностями (рисунок 2).
Рисунок 1. Двудоменная архитектура
Рисунок 2. Однодоменная архитектура
С помощью скрипта swisspfam-to-xls.py из файла
с информацией об архитектуре всех последовательностей
Uniprot /srv/databases/pfam/swisspfam.gz была
извлечена информация об исследуемом домене:
python swisspfam-to-xls.py -z -i /srv/databases/pfam/swisspfam.gz -p PF14522 -o PF14522-domens.xls
|
Затем была составлена сводная таблица, где по строкам - AC последовательностей, а по толбцам - домены.
После скачивания всех последовательностей из Uniprot с помощью скрипта uniprot-to-taxonomy.py
была получена таксономия:
python uniprot-to-taxonomy.py -i uniprot-PF14522.txt -o PF14522-taxonomy.xls |
Файл с последовательностями (uniprot-PF14522.txt) был скачан
[здесь].
После использования скрипта uniprot-to-taxonomy.py получилась следующая таблица:
[ссылка на скачивание таблицы].Полученная таксономия была добавлена в имеющуюся Excel таблицу с помощью функции ВПР.
Также были добавлены длины последовательностей.
Далее на основании таксономии и архитектуры были выбраны последовательности для выравнивания.
В качестве таксона был выбран Proteobacteria, а в качестве подтаксонов - Gammaproteobacteria (G) и Deltaproteobacteria (D).
Таким образом, в ходе отбора были выбраны 49 представителей, 28 из которых принадлежат D (20 для архитектуры Cytochrome c7 and related cytochrome (PF14522.5)
c и 8 для Cytochrome c (PF00034.20)), а 21 - G (19 - для архитектуры Cytochrome c7 and related cytochrome (PF14522.5), 2 для Cytochrome c (PF00034.20)).
Выбранные представители указаны в листе "selected" итоговой таблицы.
Итоговую таблицу можно скачать здесь:
[ссылка].
Затем был применен еще один скрипт:
python filter-alignment.py -i cyt_full_fasta.mfa -m chosen.txt -o py_f_a_chosen.fasta -a "_" |
Таким образом, результатом было
[ссылка на скачивание fasta-файла]. С этим и продолжалась работа дальше.
Были удалены все пустые и неиформативные столбцы, частично N, C концы.
Группа с первой архитектурой обозначена номером 2, а со второй - 1. Например, в выравнивании для подтаксона Deltaproteobacteria со второй архитектурой
это будет обозначено "D_2_", со втором подтаксоном и другой архитетурой - аналогично.
Как можно видеть, в трех местах имеются относительно консервативные
блоки, в то время как в других частях последовательность более произвольная. Но в целом
архитектуры отличаются несильно.
. Построить филогенетическое дерево последовательностей домена
По имеющемуся
[fasta-файлу] с помощью программы MEGA7 было построено филогенетическое дерево (рисунок 3) методом
Minimal Evolution Tree с bootstrap поддержкой в количестве 100 реплик.
Рисунок 3. Филогенетическое дерево
[ссылка на проект MEGA]
На рисунке 3 видно, что таксоны разошлись гораздо раньше, чем доменная архитектура, а она, в свою очередь, изменялась независимо много раз.
Возможно, вторая копия домена у представителей двухдоменной архитектуры среди дельт менее функционально важна и поэтому имела меньшие ограничения
на мутагенез, из-за чего стала более похожей на этот домен в другом подтаксоне, но это не объясняет вылеты дельт из своей клады в случае их
однодоменной архитектуры.
Ссылки: