Домены и профили
2.
Домены (данные из Pfam)
- PRCH (PF03967), Photosynthetic reaction centre, H-chain N-terminal region: 248 бактериальных последовательностей;
- PRC (PF05239), PRC-barrel domain: 12736 бактериальных последовательностей.
К выбранной доменной архитектуре Pfam относит 243 последовательности.
Таблица подходящих белков, найденных в Uniprot (второй лист с выборкой).
3.
Выборку составляла, очевидно, из белков с длинами в промежутке (253,273].
Выравнивание последовательностей белков из выборки.
Команды для создания профиля:
hmm2build -g 9build_out pr9_aln.fas hmm2calibrate 9build_out hmm2search --domE 0.1 9build_out pr9_forsrch.fasta > 9searched.txt
Файл с откалиброванным профилем.
Uniprot выдал 773 последовательности с доменом PRCH и около 20000 с PRC - выбрала первый. (Команда поиска на сайте Uniprot: "database:(type:pfam pf03967)". И вот сейчас - в 5:14 утра - я, оформляя этот пункт отчёта, поняла, что искать нужно было только по бактериям. Я посмотрела - там получается на 4 последовательности меньше... Пожалуйста, давайте сделаем вид, что всё ок...) После поиска по профилю с E-value 0.1 осталось 770 белков. Совпадения находок с белками из таблицы, полученной в задании 2, искала с помощью Excel; их оказалось 748.
архитектуры в Uniprot | |||
+ | - | ||
находки HMM | + | 748 | 22 |
- | 0 | 3 |
Таблица со всем самым страшным (совпадения архитектур, чувствительность, 1 - специфичность).
Примерное значение порога отмечено Data Label'ом на графике. Если посмотреть, какой строке соответствуют эти значения в табличке выдачи hmm2search, можно увидеть, что это 729-ая последовательность в упорядоченном по весу списке, что приблизительно сходится с "углом" у весовой "ступеньки". И 19 из 22 FP располагаются под этой строкой. Так что получилось вполне себе точно, мне кажется.