Cписок белков Uniprot с заданным составом доменов Pfam

В этом задании было нужно выбрать двухдоменную архитектутру и сделать список белков Uniprot, включающих в себя эти два домена.

Таблица 1. Домены.
ID Glyphos_transf TarS_C1
AC PF04464 PF18674
Название CDP-Glycerol:Poly(glycerophosphate) glycerophosphotransferase TarS beta-glycosyltransferase C-terminal domain 1
Число последовательностей среди бактерий 4142 60

На рисунке 1 изображена выбранная мной доменная архитектура и число последовательностей с ней по данным Pfam.

Домен

Рисунок 1.

По ссылке можно скачать таблицу с полученным списком белков и диаграммой длин, полученных белков (на листе 1). (Также там есть колонка "Selected", слово "yes" в которой означает, что данная последовательность входит в выброку белков самой распространенной длины. Диаграмма длин также представлена на рисунке 2. Выборка была сделана из белков длиной от 1039 до 1159 а.о. Отдельную таблицу с данной выборкой можно скачать тут.

Гистограмма длин белков

Рисунок 2.

Построение hmm профиля семейства белков с выбранной архитектурой

Для построения hmm профиля сначала было получено и откорректировано выравнивание всех белков выбрки (представлена выше). Скачать выравнивание.

Затем при помощи программы hmm2build было построен hmm профиль. Команда для построения профиля: hmm2build -g profile mybeautifulalignement.fa. Затем профиль был откалиброван при помощи программы hmm2calibrate. Полуеннный в итоге профиль можно скачать по ссылке.

Для проверки профиля я выбрала последовательности белков, которые содержат в себе домен Glyphos_transf. Всего таких последовательностей 18098. По множеству этих белков был произведен поиск белков по полученному hmm профилю. Для этого использовалась следуюущая команда: hmm2search --domE 0.1 profile PF04464.fasta. Пороговым было выбрано E-value 0.1. В результате этого поиска было отобрано 8560 белковых последовательностей. Список белков с пометкой о присутствии в них двудоменной архитектуры, чувсвительностью при данном пороге и единице минус специфичность представлен на листе 2 в таблице. При помощи полученных данных была пострена ROC кривая, которая изображена на рисунке 3. Распределение весов белков можно найти на листе 2 таблицы со списком белков.

ROC кривая

Рисунок 3.

Исходя из полученых данных я выбрала пороговый вес вес выравнивания 100.

Таблица 2. Табличка истинности.
true false
two-domed architecture 160 8
not two-domed architecture 8347 45

Из 206 последовательностей с двухдоменной архитектурой hmm нашел 168.