Гжегож Бженчишчикевич из деревни Хжёншчижевошице выбрал два домена Pfam и нашел в UniProt составленные из них белки.
ID домена | AC домена | Название | Число последовательностей среди бактерий |
---|---|---|---|
SNase | PF00565 | Staphylococcal nuclease homologue | 5014 |
LTD | PF00932 | Lamin Tail Domain | 4347 |
Pfam говорит о 101 белке, составленном только из доменов SNase и LTD.
В UniProt нашлось 227 белков, из которых 164 не содержали посторонних доменов.
В таблице можно увидеть результаты.
Обработанные результаты представлены таблице 2. На 1 листе был создан запрос в Uniprot
После обработки была получена выборка из 52 послеовательностей (колонка Selected)
Полученную выборку белков характерной длины можно использовать для построения HMM-профиля, а им впоследствии искать новые белки с такой архитектурой
С помощью JalView было проведено выравнивание (MUSCLE). Затем была проведена обработка выравнивания по указаниям к выполнению практикума.
Построение профиля:
hmm2build arch.hmm pr9_align.fa
hmm2calibrate arch.hmm
Для дальнейшей проверки профиля был выбран домен PF00932. Были скачаны последовательности всех белков с данным доменом (с помощью Uniprot); ~24,919 последовательностей (содержатся в uniprot-PF00932.fasta)
hmm2search -E 0.01 arch.hmm uniprot-PF00932.fasta | cat > out.fasta
Были выбраны находки с e-value < 0.01
Результаты поиска были импортированы в Excel
Целью было подобрать оптимальный порог веса для наиболее точного предсказания находок с нужной доменной архитектурой.
Формула для расчёта чувствительности: TP/TP+FN
Формула для расчёта специфичности: TN/TN+FP
Вывод | Наша архитектура | Иная архитектура |
Прошло порог | 43 | 38 |
Не прошло порог | 4 | 3588 |
Специфичность составила 98,95%; чувствительность составила 91,48%
ROC-кривая:
По оси абсцисс - чувствительность
По оси ординат - специфичность
Было посчитано максимальное значение F1-score: 0,671875. Ему соответствовала 83 позиция в таблице.
В результате был определён оптимальным порог score по соотношению чувствительности и точности:252.6
В целом полученный HMM профиль предсказывает наличие выбранных нами доменов в последовательности с высокой чувствительностью.