Практикум 9.

Домены и профили

Составление списка белков Uniprot с заданным составом доменов Pfam

Для этого задания я выбрала два домена: Multicopper oxidase (ID:Cu-oxidase_3;AC:PF07732) и Cytochrome C (ID:Cytochrom_C;AC:PF00034), которые входят в состав архитектуры Q6MK08_BDEBA. Домен Cu-oxidase_3 имеет 8183 последовательности среди бактерий, а Cytochrom_C 21423 последовательности.
Доменная архитектура изображена на рис.1. По данным Pfam с ней было 63 последовательности.
В таблице записана информация о всех бактериальных белках с выбранной доменной архитектурой: также был посчитан интервал типичных длин белков, а также сделана выборка из разных семейств (к сожалению, не смогла сделать колонку selected, но таблица с выборкой расположена на отдельном листе ("Выборка") ).
Arch of domains
Рис.1. Изображение доменной архитектуры на сайте Pfam
Первоначально в выборку попало также несколько последовательностей, содержащих ещё какой-нибудь домен, кроме выбранных двух. После того, как я удалила такие последовательности, я смогла найти всего 3 новых, содержащих 2 домена, которые можно было бы включить в выборку. Таким образом, к сожалению, в моей выборке оказалось всего 34 последовательности.
С помощью фломулы в Excel (см. лист "Нужная архитектура", результаты проверки по HMM-профилю на странице "HMM") были получены последовательности по их AC через Jalview, которые затем были выровнены (метод Muscle). Затем были удалены позиции (1-16) до N-концевого домена (очевидных фрагментов не было) и после С-концевого (начиная с 493 позиции изначального выравнивания) (рис. 2).
1
N-концевой участок выравнивания до ревизии
2
N-концевой участок выравнивания после удаления позиций до первого консервативного блока.
3
С-концевой участок выравнивания до ревизии.
4
С-концевой участок выравнивания после удаления неконсервативного блока.
Рис.2. Изображения выравнивания.
Итоговое выравнивание можно посмотреть здесь.
Построение HMM профиля. Команда для построения профиля: 'hmm2build hmmprofile.hmm pr9_ali.fa'. Калибровка профиля (добавление коэффициентов пересчета веса в нормализовнный): 'hmm2calibrate hmmprofile.hmm'. Результат здесь.
Затем из Uniprot были скачены все бактериальные последовательности, содержащие домен PF07732 (был выбран именно этот домен, т.к. для него было около 38 тыс. последовательностей в отличие от 100 тыс. другого домена). С помощью команды 'hmm2search -E 0.01 hmmprofile.hmm pf07732_bacteria.fasta.gz' был осуществлен поиск нужной двухдоменной архитектуры среди всех полученных последовательностей. Выдача была импортирована в Excel, где производились вычисления по оценке HMM профиля.
Вывод. По результатам вычислений, представленных в таблице (см.выше), оказалось что оптимальным порогом по соотношению чувствительности и точности является 957,8. Чувствительность составила 93,5%, специфичность 96,7%.