Встреча с Pfam и HMM

Для работы был выбран домен putative serine dehydratase domain(PF14031). Этот домен найден в D-сериндегидратазе на С-конце. Для изучения была выбрана следующая доменная архитектура (Pfam говорит, что такая архитектура содержится в 4030 последовательностях).

Рис.1. Выбранная доменная архитектура - здесь домен putative serine dehydratase (далее - PSD) расположен вместе с доменом Alanine racemase, N-terminal domain (далее - AR).

Для поиска в UniProt был создан запрос database:(type:pfam pf01168) database:(type:pfam pf14031), который нашёл все белки с двухдоменной архитектурой. Белков в UniProt оказалось более 10000, поэтому были взяты белки из царства Eukaryota. Скачанные белки можно посмотреть в этой ссылке.
Далее была построена гистограмма длин белков, она представлена на Рисунке 2.

Рис.2. Гистограмма длин белков с выбранной доменной архитектурой. Как видно, мода длин белков составляет примерно 350-500 нуклеотидов.

45 белков с длиной 350-500 нуклеотидов из разных таксонов были отобраны для дальнейшей работы (их можно посмотреть на листе "выбранные 45" в гугл-таблице, ссылка на которую представлена выше).

Для скачивания последовательностей белков был написан вот такой скрипт. Для создания единого файла со всеми последовательностями и последующего выравнивания использовались команды:

cat *.fa* > all_seq.fasta

muscle -in all_seq.fasta -out aligned_all.fasta

Затем пришло время ревизии множественного выравнивания. Для этого файл aligned_all.fasta был визуализирован в JalView и убраны части до самого левого N-концевого блока и после последнего C-концевого блока. Также были убраны последовательности, значительно отличающиеся от большинства. Отредактированное выравнивание можно скачать здесь.

Рис.3. Фрагмент отредактированного выравнивания.

Затем были запущены следующие команды:

hmm2build out_hmm.hmm aligned_all_reviewed.fasta
hmm2calibrate out_hmm.hmm

С помощью этих команд был построен и откалиброван hmm-профиль.
Затем были скачаны все последовательности из Uniprot, которые содержат выбранный домен. С помощью команды hmm2search —cpu 1 -E 0.1 out_hmm.hmm pfam.fasta > results.txt была проведена проверка по hmm-профилю. Файл с результатами можно посмотреть здесь.
Получена таблица с весами всех находок, которая затем была отсортирована, и был построен график весов выравниваний, который представлен ниже.

Рис.4. Распределение весов

Видно, что на какой-то точке происходит резкое падение весов выравниваний. Возьмём из этой точки значения True Positive, True Negative, False Positive, False Negative для заполнения таблицы.
E-value находки с выбранным весом - 2,8e-105.

Табл.1. Предсказания против истины
uniprot+ uniprot-
hmm+ 547 698
hmm- 265 269

На основе имеющихся данных была построена ROC-кривая (выгляит неплохо), представленная на рисунке ниже.

Рис.3. ROC-кривая.