Домены и профили

2.
Домены (данные из Pfam)
- PRCH (PF03967), Photosynthetic reaction centre, H-chain N-terminal region: 248 бактериальных последовательностей;
- PRC (PF05239), PRC-barrel domain: 12736 бактериальных последовательностей.
К выбранной доменной архитектуре Pfam относит 243 последовательности.

Домены
Рис. 1. Доменная архитектура.

Таблица подходящих белков, найденных в Uniprot (второй лист с выборкой).

3.

Гистограмма
Рис. 2. Длины белков с выбранной доменной архитектурой.

Выборку составляла, очевидно, из белков с длинами в промежутке (253,273].

Выравнивание последовательностей белков из выборки.

Выравнивание
Рис. 3. N-конец выравнивания белков из выборки.
Выравнивание
Рис. 4. С-конец выравнивания белков из выборки.

Команды для создания профиля:

hmm2build -g 9build_out pr9_aln.fas
hmm2calibrate 9build_out
hmm2search --domE 0.1 9build_out pr9_forsrch.fasta > 9searched.txt

Файл с откалиброванным профилем.

Uniprot выдал 773 последовательности с доменом PRCH и около 20000 с PRC - выбрала первый. (Команда поиска на сайте Uniprot: "database:(type:pfam pf03967)". И вот сейчас - в 5:14 утра - я, оформляя этот пункт отчёта, поняла, что искать нужно было только по бактериям. Я посмотрела - там получается на 4 последовательности меньше... Пожалуйста, давайте сделаем вид, что всё ок...) После поиска по профилю с E-value 0.1 осталось 770 белков. Совпадения находок с белками из таблицы, полученной в задании 2, искала с помощью Excel; их оказалось 748.

График
Рис. 5. "Ступенька" весов находок.
Табл. 1. Таблица предсказаний.
архитектуры в Uniprot
+ -
находки HMM + 748 22
- 0 3

Таблица со всем самым страшным (совпадения архитектур, чувствительность, 1 - специфичность).

График
Рис. 6. ROC-кривая.

Примерное значение порога отмечено Data Label'ом на графике. Если посмотреть, какой строке соответствуют эти значения в табличке выдачи hmm2search, можно увидеть, что это 729-ая последовательность в упорядоченном по весу списке, что приблизительно сходится с "углом" у весовой "ступеньки". И 19 из 22 FP располагаются под этой строкой. Так что получилось вполне себе точно, мне кажется.