Практикум 9.

2. Список белков Uniprot с заданным составом доменов Pfam

скачать таблицу с результатом поиска
скачать последовательности выбранных белков


Выбрана архитектура Ribonuclease_3, dsrm. Такая пара есть у 318 последовательностей.

arc



инфо о доменах:

первый
AC: PF00636:
ID: Ribonuclease_3
число последовательностей среди бактерий: 7986

второй
AC: PF00035
ID: dsrm
число последовательностей среди бактерий: 19751

Uniprot нашел 214 последовательности.
искала вот так:
database:(type:pfam pf00636) database:(type:pfam pf00035) taxonomy:"Bacteria [2]"

Мода: [228; 243].
я построила столбчатую гистограмму длин белков, увидела, что есть 2 пика - намек на 2 подгруппы (но это не точно). в первой 153, во второй 41 штука. взяла белки с длинами от (228 до 258] остатков.

arc


#task 2

найден самый N-концевой консервативный блок, удалены все колонки слева от него (то есть никакие, консервативный блок начинается с первого остатка у всех белков).
найден последний C-концевой консервативный блок, он заканчивается 242-й позицией (позиции 243 и далее - удалены)

arc

в выравнивании 43 белка. белки 2-5 я решила оставить, хоть они и немного выбиваются из общей картинки (первый n-концевой и последний с-концевой домены у них "на месте" - пусть будут в выравнивании, значит)
скачать выравнивание

построение профиля:
hmm2build prots9.hmm prots9.fa

калибровка профиля:
hmm2calibrate prots9.hmm

скачать профиль

Белков с доменом PF00636 среди бактерий - 7986, а с доменом PF00035 - 19751. дальше буду работать с белками с доменом PF00636.
сейчас будем искать в uniprot по всем белкам с доменом PF00636, пользуясь командой hmm2search и используя откалиброванный профиль.
поиск: database:(type:pfam pf00636) taxonomy:"Bacteria [2]" - в юнипроте нашлось 6575 последовательностей
далее команда (прогоняем профиль против нашей совокупности белков с данным доменом):
hmm2search -E 0.1  prots9.hmm prots_domain_pr9.fasta > out.txt

скачать файл с последовательностями (находками), у которых та же доменная архитектура
скачать таблицу с результатами, ROC кривой и гистограммой весов (scores)
ROC-кривая и гистограмма весов:

arc


пороговым значением веса было выбрано 195, табличка истинности:

arc



#task 3

INFO

Q8YPT4,A0A3M9ZHK4,K9YHQ4,A0A2T2W9M2,F4XLE3,A0ZF95,A0A1U7GWG8,A0A0M2PXG6,A0A5C0DMA4,A0A2G4EX17,A0A328IBF1,A0A3D4C3H6,A0A2T1ENH8,A0A2R5FGH2,A0A0F5YDT6,A0A2N6LHW4,A0A1B7VM66,A0A218QFI4,A0A1X4G8Y5,A0A1Z4G6S2,K9VKS5,K9WKT6,A0YQT1,M1WR58,A0A1Z4GNZ8,A0A1C0V4Z4,A0A1Z4U5Z5,A0A1Z4K6T6,A0A1B7WEJ2,A0A2P8QMM8,A0A4R4IVH5,A0A1Z4HVZ6,U7QGL0,A0A1W5CGK8,A0A1Z4SMG1,D4TKB6,A0A1Z4J4I2,A0A1Z4QL28,A0A2G3P793,A0A2C6WCB1,A0A433VGL2,A0A2T1E172,A0A2N6MI27