В этом задании было нужно выбрать двухдоменную архитектутру и сделать список белков Uniprot, включающих в себя эти два домена.
ID | Glyphos_transf | TarS_C1 |
---|---|---|
AC | PF04464 | PF18674 |
Название | CDP-Glycerol:Poly(glycerophosphate) glycerophosphotransferase | TarS beta-glycosyltransferase C-terminal domain 1 |
Число последовательностей среди бактерий | 4142 | 60 |
На рисунке 1 изображена выбранная мной доменная архитектура и число последовательностей с ней по данным Pfam.
Рисунок 1.
По ссылке можно скачать таблицу с полученным списком белков и диаграммой длин, полученных белков (на листе 1). (Также там есть колонка "Selected", слово "yes" в которой означает, что данная последовательность входит в выброку белков самой распространенной длины. Диаграмма длин также представлена на рисунке 2. Выборка была сделана из белков длиной от 1039 до 1159 а.о. Отдельную таблицу с данной выборкой можно скачать тут.
Рисунок 2.
Для построения hmm профиля сначала было получено и откорректировано выравнивание всех белков выбрки (представлена выше). Скачать выравнивание.
Затем при помощи программы hmm2build было построен hmm профиль. Команда для построения профиля: hmm2build -g profile mybeautifulalignement.fa. Затем профиль был откалиброван при помощи программы hmm2calibrate. Полуеннный в итоге профиль можно скачать по ссылке.
Для проверки профиля я выбрала последовательности белков, которые содержат в себе домен Glyphos_transf. Всего таких последовательностей 18098. По множеству этих белков был произведен поиск белков по полученному hmm профилю. Для этого использовалась следуюущая команда: hmm2search --domE 0.1 profile PF04464.fasta. Пороговым было выбрано E-value 0.1. В результате этого поиска было отобрано 8560 белковых последовательностей. Список белков с пометкой о присутствии в них двудоменной архитектуры, чувсвительностью при данном пороге и единице минус специфичность представлен на листе 2 в таблице. При помощи полученных данных была пострена ROC кривая, которая изображена на рисунке 3. Распределение весов белков можно найти на листе 2 таблицы со списком белков.
Рисунок 3.
Исходя из полученых данных я выбрала пороговый вес вес выравнивания 100.
true | false | |
---|---|---|
two-domed architecture | 160 | 8 |
not two-domed architecture | 8347 | 45 |
Из 206 последовательностей с двухдоменной архитектурой hmm нашел 168.