Учебный сайт Валяевой Анны

Эволюционные домены

Целью этого практикума было реконструировать эволюцию доменной архитектуры выбранного семейства доменов Arfaptin (AC PF06456). Этот белковый домен взаимодествует с ГТФазой ARF1, которая участвует в процессе отпочковывания везикул, происходящем в аппарате Гольджи. Arfaptin образует димер, принимающий форму полумесяца, из суперспиралей, содержащих по 3 альфа-спирали.

Данный домен имеет 12 архитектур, которые можно увидеть здесь. Для дальнейшей работы из них я выбрала две, представленные на рисунке 1, поскольку они хорошо представлены в различных последовательностях (включают 292 и 112 последовательностей, соответственно).

Выбранные архитектуры

Рис. 1. Схемы выбранных доменных архитектур.

Затем в программе Jalview было открыто полное выравнивание всех последовательностей выбранного домена, покрашено ClustalX By Conservation 10%, несколько очевидно плохо выравненных последовательностей было удалено. Проект выравнивания можно скачать здесь.

Далее была получены таблица, содержащая информацию о доменной структуре каждой последовательности, содержащей данный домен. Это было сделано с помощью скрипта swisspfam-to-xls.py. Были получены данные о таксономии каждой последовательности с помощью скрипта uniprot-to-taxonomy.py. При этом оказалось, что часть идентификаторов устарела. Были выбраны 2 таксона: Chordata и Ecdysozoa, и 2 архитектуры: одно- и двудоменная. Использумые в ходе работы таблицы можно скачать здесь.

Для выбранных доменов и архитектур было построено отдельное выравнивание (проект выравнивания), к идентификаторам последовательностей были добавлены примечания(1 - однодоменная архитектура, 2 - двудоменная архитектура, C - хордовые, E - экдизозоа). Несколько плохо выравненных последоваельностей было удалено. По выравниванию было построено дерево программой MEGA методом Maximum Likelihood (рис.2).

Построенное дерево

Рис. 2. Построенное дерево.

По дереву видно четкое обособление клад с 1-ой и 2-ой архитектурами, выделенные фиолетовыми и зелеными скобочками, соответственно. Таксономическое деление определить труднее. Поэтому можно предположить, что изучаемые две архитектуры развивались изначально независимо.

В качестве подсемейства последовательностей была выбрана клада хордовых с первой архитектурой, выделенная голубой скобочкой. Выравнивание всех этих последовательностей можно посмотреть здесь. По ним с помощью программы hmm2biuld был построен профиль последовательностей, затем он был откалиброван программой hmm2calibrate. Результат работы этих двух программ можно увидеть здесь. По этому профилю был проведен поиск по всем белкам, содержащим домен с помощью программы hmm2search без каких-либо дополнительных параметров. Всего было найдено 257 последовательностей с E_value от 9.8 до 2.60e-132.

Для определения порога, по которому стоит относить последовательности к подсемейству, была построена ROC-кривая (рис. 3).

ROC-кривая

Рис. 3. ROC-кривая.

Таблица 1. Результаты поиска по профилю при пороге 6e-90.

На самом делеПринадлежит подсемействуНе принадлежит подсемействуСумма
Выше порога по профилю254065
Ниже порога1191192
Сумма26211247

Дата последнего обновления: 28.05.15
©Валяева Анна