Практикум №9

Домены и профили

Создание выборки последовательностей

Запрос поиска: taxonomy:

"Bacteria [2]" database:(type:pfam pf07991) database:(type:pfam pf16896)

Для выполнения задания был выбран фермент IlvN, катализирующий переход ацетогидроксикислот в дигидроксивалераты. В большинстве случаев он встречается у бактерий. Образует 72 доменные структуры.

Информация об доменах, составляющих выбранную архитектуру, представлена в таблице 1.

Таблица 1

ID IlvN PGDH_C
AC PF07991 PF16896
Название Acetohydroxy acid isomeroreductase, NADPH-binding domain Phosphogluconate dehydrogenase (decarboxylating) C-term
Число находок 6393 311

Доменная архитектура:

Structure

Была построена гистограмма длин белков

Length

Большинство белков имеют длину в промежутке 280..290 а. о.

Обработанные результаты представлены таблице 2. На 2 листе был создан запрос в Uniprot

После обработки была получена выборка из 57 послеовательностей (колонка Selected)

Создание HMM-профиля

Полученную выше выборку белков характерной длины можно использовать для построения HMM-профиля, а им впоследствии искать новые белки с такой архитектурой

С помощью JalView было проведено выравнивание (MUSCLE). Затем была проведена обработка выравнивания по данным указаниям

Результаты (выравнивание): alignment.fasta

Построение профиля:

 hmm2build arch.hmm alignment.fa 
 hmm2calibrate arch.hmm 

Скачать arch.hmm

Скачать out.fasta

Для дальнейшей проверки профиля был выбран домен pf07991. Были скачаны последовательности всех белков с данным доменом (с помощью Uniprot); ~32000 последовательностей (содержатся в файле gz.fasta.)

 hmm2search -E 0.01 arch.hmm gz.fasta.gz | cat < out.fasta 

Были выбраны находки с e-value < 0.01

Результаты поиска были импортированы в Excel

Целью было подобрать оптимальный порог веса для наиболее точного предсказания находок с нужной доменной архитектурой.

Формула для расчёта чувствительности: TP/TP+FN

Формула для расчёта специфичности: TN/TN+FP

Скачать таблицу Excel: pr9_ready.xlsx

Выводы

Вывод Наша архитектура Иная архитектура
Прошло порог PF07991 PF16896
Не прошло порог 122 59

Специфичность составила 97,98%; чувствительность составила 85,91%

ROC-кривая

roc

По оси абсцисс - чувствительность

По оси ординат - специфичность

Было посчитано максимальное значение F1-score: 0.760125. Ему соответствовала 183 позиция в таблице

В результате был определён оптимальным порог score по соотношению чувствительности и точности: 565.10

В целом полученный HMM профиль предсказывает наличие выбранных нами доменов в последовательности с высокой чувствительностью.

Вернуться на главную страницу