Для этого задания я выбрала два домена:
Multicopper oxidase (ID:Cu-oxidase_3;AC:PF07732) и
Cytochrome C (ID:Cytochrom_C;AC:PF00034),
которые входят в состав архитектуры Q6MK08_BDEBA. Домен Cu-oxidase_3 имеет 8183 последовательности среди бактерий, а Cytochrom_C 21423 последовательности.
Доменная архитектура изображена на рис.1. По данным Pfam с ней было 63 последовательности.
В
таблице записана информация о всех бактериальных белках с выбранной доменной архитектурой: также был посчитан интервал типичных длин белков,
а также сделана выборка из разных семейств (к сожалению, не смогла сделать колонку selected, но таблица с выборкой расположена на отдельном листе ("Выборка") ).
Первоначально в выборку попало также несколько последовательностей, содержащих ещё какой-нибудь домен, кроме выбранных двух.
После того, как я удалила такие последовательности, я смогла найти всего 3 новых, содержащих 2 домена, которые можно было бы включить в выборку.
Таким образом, к сожалению, в моей выборке оказалось всего 34 последовательности.
С помощью фломулы в
Excel (см. лист "Нужная архитектура", результаты проверки по HMM-профилю на странице "HMM") были получены последовательности по их AC через Jalview,
которые затем были выровнены (метод Muscle). Затем были удалены позиции (1-16) до N-концевого домена (очевидных фрагментов не было) и после С-концевого (начиная с 493 позиции изначального выравнивания) (рис. 2).
Рис.2. Изображения выравнивания.
Итоговое выравнивание можно посмотреть
здесь.
Построение HMM профиля. Команда для построения профиля:
'hmm2build hmmprofile.hmm pr9_ali.fa'. Калибровка профиля
(добавление коэффициентов пересчета веса в нормализовнный):
'hmm2calibrate hmmprofile.hmm'. Результат
здесь.
Затем из Uniprot были скачены все бактериальные последовательности, содержащие домен PF07732 (был выбран именно этот домен, т.к. для него было около 38 тыс. последовательностей в отличие от 100 тыс. другого домена).
С помощью команды
'hmm2search -E 0.01 hmmprofile.hmm pf07732_bacteria.fasta.gz' был осуществлен поиск нужной двухдоменной архитектуры среди всех полученных последовательностей.
Выдача была импортирована в Excel, где производились вычисления по оценке HMM профиля.
Вывод. По результатам вычислений, представленных в таблице (см.выше), оказалось что оптимальным порогом по соотношению чувствительности и точности является 957,8.
Чувствительность составила 93,5%, специфичность 96,7%.