Учебный сайт студента ФББ МГУ

Киселёв Матвей Олегович

Отчёт о практикуме 11

HMM профиль

Для работы возьмём доменную архитектуру IPR000477 - IPR002711, включающую 195 белков, согласно базе данных InterPro. Первый домен в этой архитектуре - обратная транскриптаза, а второй - HNH-эндонуклеаза.

На сайте InterPro я сгенерировал fasta-файл с последовательностями этих 195 белков. В программе Jalview я провёл Mafft-выравнивание этих последовательностей (см. рис. 1).

Простите, изображение не загрузилось :( Проверьте подключение к сети
Рис. 1. Выравнивание белков с выбранной доменной архитектурой.

Вот ссылка на файл с выравниванием.

Далее возьмём только те координаты из этого выравнивания, которые содержат интересующие нас домены. Для этого посмотрим на координаты этих доменов в репрезентативном для выбранной архитектуры белке с АС A0A0A0HXF5. Эти координаты: 87 - 576. Вырежем именно эти координаты в выравнивании и далее работать будем с этим уменьшённым файлом. К тому же удалим некоторые сиквенсы, которые выровнялись совсем плохо (на глаз). Вот получившийся файл, состоящий из 172 последовательностей.

С помощью несложного скрипта на Python3 я записал в файл accession numbers для всех последовательностей в полученном выравнивании.

На сервере Kodomo я запустил программы из пакета HMMER 2.3.2.

Чтобы создать HMM-профиль для выравнивания:

hmm2build hmmout align_ed.fa

Чтобы откалибровать полученный файл:

hmm2calibrate hmmout

Результат: файл hmmout.

Теперь выполним поиск по HMM-профилю в файле со всеми белками, содержащими данную архитектуру (kiselev-195-full.fasta). Это файл с исходными сиквенсами, скачанными из InterPro:

hmm2search --cpu=1 hmmout kiselev-195-full.fasta > hmm_results.txt

Результат работы программы.

В этом файле представлено несколько таблиц, первая из которых особенно интересна. В ней указаны веса и значения E-value для всех сиквенсов в kiselev-195-full.fasta. Построим диаграмму распределения весов последовательностей:

Простите, изображение не загрузилось :( Проверьте подключение к сети
Рис. 2. Гистограмма распределения весов последовательностей в файле kiselev-195-full.fasta.

За пороговое значение веса можно взять 600.

В Python3 построили пару графиков, показывающих достоверность полученных данных:

Простите, изображение не загрузилось :( Проверьте подключение к сети
Рис. 2. Кривая ROC (receiver operating characteristic).
Простите, изображение не загрузилось :( Проверьте подключение к сети
Рис. 3. Зависимость параметра F1 от веса последовательности.
Таким образом, в выравнивании белков было найдено 150 белков, в которых достоверно обнаружилась исследуемая доменная архитектура, как и было ожидаемо.