Практикум 10. HMM-профили и эволюционные домены
Cемейство Pfam и его подсемейство
В рамках практикума для изучения было выбрано семейство белков PF00034 (цитохром С, ID: Cytochrom_C, полное имя: Cytochrome c). Это гемосодержащие белки, которые выполняют роль переносчиков электронов. В отличие от других цитохромов, цитохром C — водорастворимый белок. Он переносит электроны от комплекса III (цитохром-bc1 комплекс) к комплексу IV (цитохром-c-оксидаза) в дыхательной цепи митохондрий. Он способен подвергаться окислению и восстановлению, поскольку содержащийся в нем атом железа преобразуется из двухвалентной в трехвалентную форму, но не связывает кислород. Цитохром С также играет важную роль в апоптозе клеток. В Pfam seed выравнивание содержит 46 последовательностей, full — 43017.
В данном семейство было выделено подсемейство со следующей доменной архитектурой: PF14715 - PF13442 - PF13442 - PF00034 - PF13442 (рис. 1)
Репрезентативным белком для данного подсемейства является третья субъединица цитохром С оксидазы (Q1ZST9) — фермента, катализирующего заключительный этап переноса электронов — от цитохрома C к кислороду. Последовательности 48 белков, входящих в данное подсемейство, были скачаны и выровнены при помощи программы MAFFT с параметрами по умолчанию.
В полученном выравнивании был выделен домен FixP_N — N-концевой домен цитохром оксидазы-cbb3, конкретная функция которого неизвестна. Домен, выделенный в выравнивании, представлен на рисунке 2.
Построение профиля HMM для подсемейства и определение порога для его выделения
С использованием программы hmmbuild по полученному выравниванию был построен HMM-профиль домена FixP_N:
hmmbuild --amino hmm.out cytochrom.fa
Опция –amino: на вход подается выравнивание аминокислотных последовательностей.
hmm.out - выходной файл
cytochrom.fa - файл с выравниванием доменов
Рассматриваемое семейство обширно - содержит 95000 белков. InterPro не дает возможности скачать такое количество белков. В связи с этим было решено сузить область рассмотрения до Vibrionales - порядка внутри класса Гаммапротеобактерий, к которому относятся белки рассматриваемого подсемейства. Внутри семейства обнаружено 1430 последовательностей, относящихся к данной группе (это наиболее крупный таксон, для которого оказалось возможным скачать последовательности белков). При помощи программы hmmsearch был осуществлен поиск профилем по этим белкам:
hmmsearch -o res_2.out hmm.out vibr.fasta
Опция -о: выходной файл (res_2.out)
hmm.out - файл с HMM профилем
vibr.fasta - файл с последовательностями белков Vibrionales из семейства PF00034
В результате было обнаружено 130 находок, среди них присутствуют все 48 белков подсемейства. Вес находок для них варьировался от 100.8 до 86.3. Количество находок, которые имеют вес >= 86.3 всего 91, то есть с таким порогом обнаруживается много ложноположительных результатов (43), а также мало истинно отрицательных (39). Заметим, что большинство белков подсемейства (84%) имеют вес более 93.5. Такой порог был выбран в качестве оптимального для выделения подсемейства, так как он выделяет группу находок, большинство из которых принадлежат изучаемому подсемейству. Разумеется, порог неидеален, но среди протестированных оказался наилучшим. Численные характеристики выделения подсемейства профилем представлены в таблице 1.
| True | False | |
|---|---|---|
| Positive | 40 | 37 |
| Negative | 45 | 8 |
С полученными в рамках практикума файлами можно ознакомиться в директории ~/term4/pr10:
cytochrom.fa - Выравнивание последовательностей доменов подсемейства
hmm.out - Профиль HMM
vibr.fasta - Последовательности белков семейства (в нашем случае, суженная область поиска)
res_2.out - Результат поиска (выходной файл hmmsearch)
table.txt - результат поиск в формате таблицы (легче посчитать количества находок до и после порога)