Практикум 9.

ТАБЛИЦА СЕМЕЙСТВ PFAM С ИХ ПАРАМЕТРАМИ

С помощью скрипта была получена сводная таблица семейств, доступных в базе данных Pfam. Она доступна по ссылке.

Задание 1. Построение HMM-профиля семейства белков

Для работы был выбран домен Tcell_CD4_C (PF12104), как удовлетворяющий всем требованиям, перечисленным в задании. Этот домен представляет собой C-конец рецептора CD4 на поверхности иммунных T-клеток. Число последовательностей с доменом в выюорках Seed, Full и Uniprot составляет 1, 165 и 502 соответственно. Длина профиля HMM для данного домена равна 28.

Для данного домена с сайта Pfam были загружены все последовательности белков, его содержащих, и сохранены в файл full.fasta.

Из доменных архитектур, представленных для данного домена, я выбрал для рассмотрения следующую: CD4-extracel, Tcell_CD4_C. То есть второй домен называется CD4-extracel и имеет идентификатор PF09191. Архитектуре соответствуют 25 белков из выравнивания Full (беглый просмотр названий организмов показал, что в основном это птицы).

Таблица в формате tsv, содержащая информацию о доменной организации белков из Full, доступна по ссылке. Для нужной архитектуры во второй колонке указано 'CD4-extracel, Tcell_CD4_C', а для остальных — прочерк.

Из белков с данной доменной архитектурой было составлено выравнивание, содержащее 25 посл-тей. Оно доступно по ссылке. Использовалась программа Muscle с параметрами по умолчанию. После ревизии (производилось удаление C-концевых и N-концевых участков, не входящих в состав домена, а также отбрасывание избыточных последовательностей на уровне идентичности 90% и, наконец, исключение приблизительно 1/3 от оставшихся посл-тей с целью уменьшения размера выборки). Выравнивание после ревизии доступно по ссылке. Важно отметить, что участок между доменами по консервативности неотличим от самих доменов.

Для построения профиля, калибровки и поиска по профилю использовались следующие команды:

    hmm2build -g hmm_out.txt sample.fasta
    hmm2calibrate hmm_out.txt
    hmm2search --cpu 1 hmm_out.txt full.fasta > hmm2search_out.txt

В результате был создан профиль HMM двухдоменной архитектуры. Его длина составила 261. Файл доступен по ссылке.

Проверка HMM-профиля

Для семейства белков была построена гистограмма, отражающая распределение их длин. Она представлена на рисунке 1.

Результаты поиска и вычисления показателей специфичности и чувствительности для разных пороговых значений веса приведены в сводной таблице. Также во второй и третьей колонке указано, имеет ли белок нужную доменную архитектуру и включён ли он в выборку, использовавшуюся для построения HMM-профиля. hmm2search_out.txt — файл с результатами поиска профиля по набору белков с выбранным доменом.

Для определения порога было построено распределение веса (рис. 2).

Также была построена ROC-кривая (рис. 3). Кроме того, осуществлялся подбор порога, при котором было бы максимальным значение F1 из сводной таблицы. Получилось, что максимум, равный 0.82, достигается при значении порога, равном 579.7, что даёт 92% чувствительности и 94% специфичности. Это хорошо согласуется с результатом, который может быть получен методом пристального взгляда на таблицу, отсортированную по весам находок. При таком подходе я бы предложил значение порога 578.5 (96% чувствительности и 93% специфичности), оно позволяет захватить ещё одну правильную находку (TP) и две неправильных (FP).

ROC-кривая
Рисунок 3. ROC-кривая, построенная на основе сводной таблицы. Как видно, площадь под кривой довольно большая, что говорит в пользу рассматриваемого правила.
Распределение длин белков семейства
Рисунок 1. Гистограмма длин белков выбранного семейства, Можно сказать, что интервал характерных длин — от 350 до 550.
Распределение веса
Рисунок 2. Распределение весов, полученных при поиске с использованием вычисленного HMM-профиля. Можно предположить, что пороговое значение веса должно быть около 250, поскольку при этом возникает явное разбиение на находки двух типов, которые можно называть правильными и неправильным.

Задание 2. Белки с выбранной доменной архитектурой на филогенетическом дереве.

Методом Neighbour-Joining на основе выравнивания всех белков семейства по всей длине было построено филогенетическое дерево. Белки с выбранной доменной архитектурой не формируют в нём клады, но все входят в другую кладу из 48 листьев. Дерево для данной клады приведено на рисунке 4. При использовании других методов филогенетической реконструкции и программы MAFFT вместо Muscle результат оказывается фактически тем же, то есть не получается отдельной клады.

Дерево
Рисунок 4. Филогенетическое дерево для клады, содержащей все белки с рассматриваемой доменной архитектурой. Можно отметить, что многие ветви достаточно короткие и, возможно, не очень достоверные.