Задание 2

Гжегож Бженчишчикевич из деревни Хжёншчижевошице выбрал два домена Pfam и нашел в UniProt составленные из них белки.

ID домена AC домена Название Число последовательностей среди бактерий
SNase PF00565 Staphylococcal nuclease homologue 5014
LTD PF00932 Lamin Tail Domain 4347

мое фото

Pfam говорит о 101 белке, составленном только из доменов SNase и LTD.

В UniProt нашлось 227 белков, из которых 164 не содержали посторонних доменов.

В таблице можно увидеть результаты.

Создание HMM-профиля

Была построена гистограмма длин белков

мое фото

Большинство белков имеют длину в промежутке 280..300 а. о.

Обработанные результаты представлены таблице 2. На 1 листе был создан запрос в Uniprot

После обработки была получена выборка из 52 послеовательностей (колонка Selected)

Полученную выборку белков характерной длины можно использовать для построения HMM-профиля, а им впоследствии искать новые белки с такой архитектурой

С помощью JalView было проведено выравнивание (MUSCLE). Затем была проведена обработка выравнивания по указаниям к выполнению практикума.

Полученное выравнивание.

Построение профиля:

hmm2build arch.hmm pr9_align.fa
hmm2calibrate arch.hmm

Скачать arch.hmm

Для дальнейшей проверки профиля был выбран домен PF00932. Были скачаны последовательности всех белков с данным доменом (с помощью Uniprot); ~24,919 последовательностей (содержатся в uniprot-PF00932.fasta)

hmm2search -E 0.01 arch.hmm uniprot-PF00932.fasta | cat > out.fasta

Скачать out.fasta

Были выбраны находки с e-value < 0.01

Результаты поиска были импортированы в Excel

Целью было подобрать оптимальный порог веса для наиболее точного предсказания находок с нужной доменной архитектурой.

Формула для расчёта чувствительности: TP/TP+FN
Формула для расчёта специфичности: TN/TN+FP

Таблица с результатами.

Вывод Наша архитектура Иная архитектура
Прошло порог 43 38
Не прошло порог 4 3588

Специфичность составила 98,95%; чувствительность составила 91,48%

ROC-кривая:

мое фото

По оси абсцисс - чувствительность

По оси ординат - специфичность

Было посчитано максимальное значение F1-score: 0,671875. Ему соответствовала 83 позиция в таблице.

В результате был определён оптимальным порог score по соотношению чувствительности и точности:252.6

В целом полученный HMM профиль предсказывает наличие выбранных нами доменов в последовательности с высокой чувствительностью.