Практикум 8. Профиль.

Задание 1. Определите целевое семейство белков. Составьте список белков семейства из `SwissProt`


Выберите выравнивание, проверьте его
Постройте профиль по выравниванию
Oткалибруйте профиль

Для этого задания были выбраны иммуноглобулины (иммуноглобулиновые домены) человека, которые встречаются вместе: PF00047 и PF13895.

Запрос: database:(type:pfam id:PF00047) database:(type:pfam id:PF13895) taxonomy:"Homo sapiens (Human) [9606]" AND reviewed:yes

Выравнивание подсемейства: ig_align_new.fasta. Некотрые последовательности сильно выделялись по длине и я их удалила, хотя и без них последовательности сильно похожими не выглядят.

ссылка на выравнивание

Задание 2. Постройте и откалибруйте профиль для целевого семейства

Выполните поиск по SwissProt
Подберите пороги по E-value и Весу так, чтобы среди находок было сравнимое число правильных и неправильных находок - нужно для подбора порога!
Составьте таблицу (Excel,Лист 2)

ссылка на файл

Профиль:
Команда построения hmm2build -g profil.out ig_align_new.fasta
Команда калибровки hmm2calibrate profil.out
Ссылка profil.out

ссылка на профиль

Задание 3. Получите результаты поиска по профилю на множестве последовательностей SwissProt


Постройте гистограмму весов всех находок, хороших и плохих
Постройте PR-кривую и/или ROC-кривую

Команда:
hmm2search --domE 1000 --domT -50 profil.out /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta > Sw.txt

Гистограмма


Была построена гистограмма. По ней сложно определить какой-то однозначный порог. И все же скачок наблюдается где-то около отметки в 400.

ROC-кривая

Была построена roc-кривая, из которой можно сделать вывод о велчиние порога. Итак, порог веса составляет 400. Белки выше этого веса попадают в семейство.


© Cherkashina Anastasia 2018