Практикум 9.
2. Список белков Uniprot с заданным составом доменов Pfam
скачать таблицу с результатом поиска
скачать последовательности выбранных белков
Выбрана архитектура Ribonuclease_3, dsrm. Такая пара есть у 318 последовательностей.
инфо о доменах:
первый
AC: PF00636:
ID: Ribonuclease_3
число последовательностей среди бактерий: 7986
второй
AC: PF00035
ID: dsrm
число последовательностей среди бактерий: 19751
Uniprot нашел 214 последовательности.
искала вот так:
database:(type:pfam pf00636) database:(type:pfam pf00035) taxonomy:"Bacteria [2]"
Мода: [228; 243].
я построила столбчатую гистограмму длин белков, увидела, что есть 2 пика - намек на 2 подгруппы (но это не точно). в первой 153, во второй 41 штука. взяла белки с длинами от (228 до 258] остатков.
#task 2
найден самый N-концевой консервативный блок, удалены все колонки слева от него (то есть никакие, консервативный блок начинается с первого остатка у всех белков).
найден последний C-концевой консервативный блок, он заканчивается 242-й позицией (позиции 243 и далее - удалены)
в выравнивании 43 белка. белки 2-5 я решила оставить, хоть они и немного выбиваются из общей картинки (первый n-концевой и последний с-концевой домены у них "на месте" - пусть будут в выравнивании, значит)
скачать выравнивание
построение профиля:
hmm2build prots9.hmm prots9.fa
калибровка профиля:
hmm2calibrate prots9.hmm
скачать профиль
Белков с доменом PF00636 среди бактерий - 7986, а с доменом PF00035 - 19751. дальше буду работать с белками с доменом PF00636.
сейчас будем искать в uniprot по всем белкам с доменом PF00636, пользуясь командой hmm2search и используя откалиброванный профиль.
поиск: database:(type:pfam pf00636) taxonomy:"Bacteria [2]" - в юнипроте нашлось 6575 последовательностей
далее команда (прогоняем профиль против нашей совокупности белков с данным доменом):
hmm2search -E 0.1 prots9.hmm prots_domain_pr9.fasta > out.txt
скачать файл с последовательностями (находками), у которых та же доменная архитектура
скачать таблицу с результатами, ROC кривой и гистограммой весов (scores)
ROC-кривая и гистограмма весов:
пороговым значением веса было выбрано 195, табличка истинности:
#task 3
INFO