ТАБЛИЦА СЕМЕЙСТВ PFAM С ИХ ПАРАМЕТРАМИ
С помощью скрипта была получена сводная таблица семейств, доступных в базе данных Pfam. Она доступна по ссылке.
Задание 1. Построение HMM-профиля семейства белков
Для работы был выбран домен Tcell_CD4_C (PF12104), как удовлетворяющий всем требованиям, перечисленным в задании. Этот домен представляет собой C-конец рецептора CD4 на поверхности иммунных T-клеток. Число последовательностей с доменом в выюорках Seed, Full и Uniprot составляет 1, 165 и 502 соответственно. Длина профиля HMM для данного домена равна 28.
Для данного домена с сайта Pfam были загружены все последовательности белков, его содержащих, и сохранены в файл full.fasta.
Из доменных архитектур, представленных для данного домена, я выбрал для рассмотрения следующую: CD4-extracel, Tcell_CD4_C. То есть второй домен называется CD4-extracel и имеет идентификатор PF09191. Архитектуре соответствуют 25 белков из выравнивания Full (беглый просмотр названий организмов показал, что в основном это птицы).
Таблица в формате tsv, содержащая информацию о доменной организации белков из Full, доступна по ссылке. Для нужной архитектуры во второй колонке указано 'CD4-extracel, Tcell_CD4_C', а для остальных — прочерк.
Из белков с данной доменной архитектурой было составлено выравнивание, содержащее 25 посл-тей. Оно доступно по ссылке. Использовалась программа Muscle с параметрами по умолчанию. После ревизии (производилось удаление C-концевых и N-концевых участков, не входящих в состав домена, а также отбрасывание избыточных последовательностей на уровне идентичности 90% и, наконец, исключение приблизительно 1/3 от оставшихся посл-тей с целью уменьшения размера выборки). Выравнивание после ревизии доступно по ссылке. Важно отметить, что участок между доменами по консервативности неотличим от самих доменов.
Для построения профиля, калибровки и поиска по профилю использовались следующие команды:
hmm2build -g hmm_out.txt sample.fasta
hmm2calibrate hmm_out.txt
hmm2search --cpu 1 hmm_out.txt full.fasta > hmm2search_out.txt
В результате был создан профиль HMM двухдоменной архитектуры. Его длина составила 261. Файл доступен по ссылке.
Проверка HMM-профиля
Для семейства белков была построена гистограмма, отражающая распределение их длин. Она представлена на рисунке 1.
Результаты поиска и вычисления показателей специфичности и чувствительности для разных пороговых значений веса приведены в сводной таблице. Также во второй и третьей колонке указано, имеет ли белок нужную доменную архитектуру и включён ли он в выборку, использовавшуюся для построения HMM-профиля. hmm2search_out.txt — файл с результатами поиска профиля по набору белков с выбранным доменом.
Для определения порога было построено распределение веса (рис. 2).
Также была построена ROC-кривая (рис. 3). Кроме того, осуществлялся подбор порога, при котором было бы максимальным значение F1 из сводной таблицы. Получилось, что максимум, равный 0.82, достигается при значении порога, равном 579.7, что даёт 92% чувствительности и 94% специфичности. Это хорошо согласуется с результатом, который может быть получен методом пристального взгляда на таблицу, отсортированную по весам находок. При таком подходе я бы предложил значение порога 578.5 (96% чувствительности и 93% специфичности), оно позволяет захватить ещё одну правильную находку (TP) и две неправильных (FP).
Задание 2. Белки с выбранной доменной архитектурой на филогенетическом дереве.
Методом Neighbour-Joining на основе выравнивания всех белков семейства по всей длине было построено
филогенетическое дерево. Белки с выбранной доменной архитектурой не
формируют в нём клады, но все входят в другую кладу из 48 листьев.
Дерево для данной клады приведено на рисунке 4. При использовании других
методов филогенетической реконструкции и программы MAFFT
вместо
Muscle
результат оказывается фактически тем же, то есть не получается
отдельной клады.