Домены. Pfam. HMM профиль.

Построение выравнивания представителей домена Pfam белков с разной доменной архитектурой


Для работы я выбрала домен Cytochrome_7. Он заинтересовал меня при работе над моим курсовым проектом.

Цитохром c — небольшие гем-содержащие белки, относятся к классу цитохромов, содержат в структуре гем типа c. Выполняют в клетке две функции. С одной стороны, являются одноэлектронными переносчиками свободно связанными с внутренней мембраной митохондрий, и необходимым компонентом дыхательной цепи. Способны окисляться и восстанавливаться, но не связывают при этом кислород. С другой стороны, при определённых условиях могут отсоединяться от мембраны, переходить в раствор в межмембранном пространстве и активировать апоптоз. Такая двойственность связана со специфичными свойствами молекулы цитохрома c. [1]

Таблица 1. Описание выбранного домена

Характеристика Данные
Название Cytochrome c7 and related cytochrome c
AC PF14522
ID Cytochrome_C7
Функции Одноэлектронные переносчики, а также одни из активаторов апоптоза.
Число архитектур 39
Число последовательностей 832
Число видов 471
Известные структуры 14
Ссылка Cyt c on pfam.xfam.org

Список доменных архитектур для данного семейства: [ссылка]

Для данного домена было построено выравнивание с помощью программы JalView. В качестве расскраски по консервативности использовалась Crustal, by conservation 30%. Также к выравниванию была добавлена 3D структура белка T2G9Q2_DESGI (PDB ID: 1Z1N)

Для описания были выбраны две доменные архитектуры: двудоменная - Cytochrome_C7 x 2, представленная 36 последовательностями (рисунок 1) и вторая однодоменная - Cytochrome_C7, представленная 322 последовательностями (рисунок 2).

Рисунок 1. Двудоменная архитектура


Рисунок 2. Однодоменная архитектура


С помощью скрипта swisspfam-to-xls.py из файла с информацией об архитектуре всех последовательностей Uniprot /srv/databases/pfam/swisspfam.gz была извлечена информация об исследуемом домене:

python swisspfam-to-xls.py -z -i /srv/databases/pfam/swisspfam.gz -p PF14522 -o PF14522-domens.xls

Затем была составлена сводная таблица, где по строкам - AC последовательностей, а по толбцам - домены.
После скачивания всех последовательностей из Uniprot с помощью скрипта uniprot-to-taxonomy.py была получена таксономия:

python uniprot-to-taxonomy.py -i uniprot-PF14522.txt -o PF14522-taxonomy.xls

Файл с последовательностями (uniprot-PF14522.txt) был скачан [здесь]. После использования скрипта uniprot-to-taxonomy.py получилась следующая таблица: [ссылка на скачивание таблицы].
Полученная таксономия была добавлена в имеющуюся Excel таблицу с помощью функции ВПР. Также были добавлены длины последовательностей. Далее на основании таксономии и архитектуры были выбраны последовательности для выравнивания.
В качестве таксона был выбран Proteobacteria, а в качестве подтаксонов - Gammaproteobacteria (G) и Deltaproteobacteria (D). Таким образом, в ходе отбора были выбраны 49 представителей, 28 из которых принадлежат D (20 для архитектуры Cytochrome c7 and related cytochrome (PF14522.5) c и 8 для Cytochrome c (PF00034.20)), а 21 - G (19 - для архитектуры Cytochrome c7 and related cytochrome (PF14522.5), 2 для Cytochrome c (PF00034.20)). Выбранные представители указаны в листе "selected" итоговой таблицы.
Итоговую таблицу можно скачать здесь: [ссылка].

Затем был применен еще один скрипт:

python filter-alignment.py -i cyt_full_fasta.mfa -m chosen.txt -o py_f_a_chosen.fasta -a "_"

Таким образом, результатом было [ссылка на скачивание fasta-файла]. С этим и продолжалась работа дальше. Были удалены все пустые и неиформативные столбцы, частично N, C концы. Группа с первой архитектурой обозначена номером 2, а со второй - 1. Например, в выравнивании для подтаксона Deltaproteobacteria со второй архитектурой это будет обозначено "D_2_", со втором подтаксоном и другой архитетурой - аналогично.
Как можно видеть, в трех местах имеются относительно консервативные блоки, в то время как в других частях последовательность более произвольная. Но в целом архитектуры отличаются несильно.


. Построить филогенетическое дерево последовательностей домена

По имеющемуся [fasta-файлу] с помощью программы MEGA7 было построено филогенетическое дерево (рисунок 3) методом Minimal Evolution Tree с bootstrap поддержкой в количестве 100 реплик.

Рисунок 3. Филогенетическое дерево


[ссылка на проект MEGA]

На рисунке 3 видно, что таксоны разошлись гораздо раньше, чем доменная архитектура, а она, в свою очередь, изменялась независимо много раз. Возможно, вторая копия домена у представителей двухдоменной архитектуры среди дельт менее функционально важна и поэтому имела меньшие ограничения на мутагенез, из-за чего стала более похожей на этот домен в другом подтаксоне, но это не объясняет вылеты дельт из своей клады в случае их однодоменной архитектуры.


Ссылки: