Восстановление предкового состояния доменной архитектуры

Часть 1. Выбор объекта изучения и построение выравнивания.

У моего белка ничего подходящего не нашлось, поэтому я почти случайно наткнулась на в итоге выбранный домен (PF00049). Это семейство инсулина, в которое входит подсемейство инсулина и инсулиноподобых факторов роста и подсемейство релаксина. Все они обладают широкой гормональной активностью в организме. Ссылка результата на сайте Pfam.

Этот домен содержит 5 архитектур, но одна представленна всего одной последовательностью. На рис 1 показаны все, но для дальнейшего исследования я выбрала первую и вторую архитектуры.

Рис 1. Схемы строения архитектур, содержащих домен инсулина.

Я скачала выравнивание всех последовательностей, открыла в Jalview, раскрасила по консервативности и прикрепила одну 3D структуру, проект тут.

Затем с помощью скрипта с сайта kodomo "swisspfam-to-xls.py" и команды:
python swisspfam-to-xls.py -z /srv/databases/pfam/swisspfam.gz -m AC -o PF00049
я получила файл с инфомацией о доменной структуре каждой из последовательностей. Файл "AC" содержит ID домена.

Из базы данных Uniprot с помощью файла со списком идентификаторов был скачен файл с записями о последовательностях. С использованием еще одиного скрипта с сайта kodomo "uniprot-to-taxonomy.py" и команды:
python uniprot-to-taxonomy.py -i PF00049_uniprot -o PF00049_taxonomy
был получен файл с данными о таксономии.

На основе этих данных была получена таблица. На листе "whole table" отмечены выбранные последовательности. В качестве таксона я выбрала царство Metazoa, а в качестве подтаксонов типы Chordata и Arthropoda. Когда я выбирала последовательности, я обнаружила, что во второй архитектуре меньше представителей типа Arthropoda, чем нужно, но переделывать все я уже не стала (а замена архетиктуры на другую не помогает). Получилось 26 последовательностей первой архитектуры и 29 - второй. Но дальше началось самое интересное.

Вторая архитектура по описанию и данным из базы содержит два домена инсулина, я рассчитывала сравнить их друг с другом и инсулином из первой архитектуры, но как оказалось, это не два домена, а две половинки одного с небольшим наложением. После соединения последовательностей выравнивание стало приличным. В нем меньше последовательностей второй архитектуры, чем планировалось изначально, так как часть почему-то не нашлась в базе. Тут финальное выравнивание и проект. Ко всем именам последовательностей прибавлено в начале 1_A_/1_С_/2(1)_A_/2(1)_C_, что обозначает, к каким архитектурам (1 - первая, 2(1) - вторая) и типам (A - Arthropoda, C - Chordata) относится домен.

На основании этого было построено дерево методом наибольшего правдоподобия, посчитан бутстрэп ветвей, чувствительность к гэпам была снижена до нуля, укоренение было проведено с помощью программы figtree. Результат на рис 2.

Скобочная формула дерева по ссылке.

Рис 2. Филогенетическое дерево домена инсулина (PF00049). Построено методом Maximum Likelihood.

Дерево получилось с низкими бутстрэпами ветвей, но в целом правдоподобное. Только последовательности 1_A_* оказались разбросаны по всему дереву. Однако все же не перемешались с другими кладами, а только в нетривиальных местах ответвились (красные рамки). Последовательности второй архитектуры четко отделились друг от друга и оказались в разных частях дерева (фиолетовые рамки), а Хордовые с первой архитектурой выделились четко в свою кладу (синяя рамка), их (1_С_*) я и выбрала в качестве подсемейства для дальнейших заданий.

Выравнивание выбранных последовательностей тутU. С сайта Uniprot был скачен файл со всеми последовательностями домена инсулина (PF00049). Затем с помощью следующих команд на сервере kodomo:
hmm2build hmm2build_result subfamily.fasta
hmm2calibrate hmm2build_result
hmm2search hmm2build_result uniprot-PF00049.fasta > hmm2seach_result
был получен файл с результатом поиска по профилю последовательности. Всего было найдено 1375 последовательностей с e-value от 6.6E-66 до 9.9.

На основе этих данных была составленна таблица и постороена ROC-кривая (рис 3, первый лист таблицы).

Рис 3. ROC-кривая.

При выбранном пороге E-value 6.9E-066 чувствительность 0.875, а специфичность 0.811. Результат в Таблице 1.

**Таблица 1. Результаты поиска по профилю при выбранном пороге E-value.**
На самом деле	Принадлежит подсемейству	Не принадлежит подсемейству	Сумма
Выше порога по профилю	14	7	21
Ниже порога по профилю	1	30	31
Сумма	15	37	52