Запрос поиска: taxonomy:
"Bacteria [2]" database:(type:pfam pf07991) database:(type:pfam pf16896)
Для выполнения задания был выбран фермент IlvN, катализирующий переход ацетогидроксикислот в дигидроксивалераты. В большинстве случаев он встречается у бактерий. Образует 72 доменные структуры.
Информация об доменах, составляющих выбранную архитектуру, представлена в таблице 1.
Таблица 1
ID | IlvN | PGDH_C |
AC | PF07991 | PF16896 |
Название | Acetohydroxy acid isomeroreductase, NADPH-binding domain | Phosphogluconate dehydrogenase (decarboxylating) C-term |
Число находок | 6393 | 311 |
Доменная архитектура:
Была построена гистограмма длин белков
Большинство белков имеют длину в промежутке 280..290 а. о.
Обработанные результаты представлены таблице 2. На 2 листе был создан запрос в Uniprot
После обработки была получена выборка из 57 послеовательностей (колонка Selected)
Полученную выше выборку белков характерной длины можно использовать для построения HMM-профиля, а им впоследствии искать новые белки с такой архитектурой
С помощью JalView было проведено выравнивание (MUSCLE). Затем была проведена обработка выравнивания по данным указаниям
Результаты (выравнивание): alignment.fasta
Построение профиля:
hmm2build arch.hmm alignment.fa
hmm2calibrate arch.hmm
Скачать arch.hmm
Скачать out.fasta
Для дальнейшей проверки профиля был выбран домен pf07991. Были скачаны последовательности всех белков с данным доменом (с помощью Uniprot); ~32000 последовательностей (содержатся в файле gz.fasta.)
hmm2search -E 0.01 arch.hmm gz.fasta.gz | cat < out.fasta
Были выбраны находки с e-value < 0.01
Результаты поиска были импортированы в Excel
Целью было подобрать оптимальный порог веса для наиболее точного предсказания находок с нужной доменной архитектурой.
Формула для расчёта чувствительности: TP/TP+FN
Формула для расчёта специфичности: TN/TN+FP
Скачать таблицу Excel: pr9_ready.xlsx
Вывод | Наша архитектура | Иная архитектура |
Прошло порог | PF07991 | PF16896 |
Не прошло порог | 122 | 59 |
Специфичность составила 97,98%; чувствительность составила 85,91%
ROC-кривая
По оси абсцисс - чувствительность
По оси ординат - специфичность
Было посчитано максимальное значение F1-score: 0.760125. Ему соответствовала 183 позиция в таблице
В результате был определён оптимальным порог score по соотношению чувствительности и точности: 565.10
В целом полученный HMM профиль предсказывает наличие выбранных нами доменов в последовательности с высокой чувствительностью.