Практикум 9.

Выбор домена.

Для анализа я выбрал домен PF09191, внеклеточная часть рецептора CD4, потому что с ним связывается ВИЧ перед проникновением в клетку, а ВИЧ интересный. Основные характеристики выбранного домена:

AC: PF09191

Seed: 20

Full: 171

Средняя длина: 108.2

Средний процент идентичности: 50

Среднее покрытие: 24.14

На рисунке ниже изображён человеческий CD4:

cringe
Рисунок 1. Структура CD 4 человека.

HMM.

Для HMM-профиля я выбрал доменную архитектуру CD4-extracel, Tcell_CD4_C, содержащую 25 последовательностей. По ссылке доступен файл со всеми AC из full. 25 последовательностей с нужной архитектурой выровнял программой mafft с параметрами по умолчанию. В Jalview использовал функцию Remove redundancy с параметром 85%, при этом осталось 14 из 25 последовательностей. Затем отрезал C- и N- gap-богатые области, в результате чего получил файл для построения HMM-профиля. Сам профиль получил и откалибровал следующими командами:

hmm2build profile for_hmm.fasta
hmm2calibrate profile

Поиск по full и оценка HMM.

Поиск по full сделал командой:

hmm2search --cpu=1 profile PF09191_full_length_sequences.fasta &> hmmsearch_log.txt

В результате получил выдачу программы.

Вообще, для оценки профиля строить ROC-кривую в моём случае оказалось и необязательным: По выдаче было видно, что 25 "правильных" белков содержались в 26 верхних строчках. Всё же приведу картинку кривой, которая это наглядно иллюстрирует:

cringe
Рисунок 2. ROC-кривая практически прямоугольна.

Мини-обсуждение.

Мне показалось интересным посмотреть на группу находок с положительными весами, но не из списка "наших" 25 белков. Дело в том, что все, кроме наших 25 и этих 7 "неожиданных" белков имеют отрицательный вес. Для того, чтобы понять, в чём дело, я посмотрел на доменные архитектуры этих находок.

cringecringecringecringecringe
Рисунок 3. Выбранная архитектура (самая левая) и четыре архитектуры, характерные для 5 из 7 "положительных" находок.

По рисунку 3 видно, что большинство из этих находок имеют архитектуру, "старшую" по отношению к нашей, т.е. содержат её в качестве элемента своей архитектуры. В таком случае, находя их с большим весом и низким E-value по HMM-профилю, мы не совершаем ошибки, а просто находим наш двойной домен в более сложных конструкциях.

Интересный факт: Один мой однокурсник, используя рандомизацию поиска домена, независимо выбрал домен Tcell_CD4_C, следующий за моим в нашей доменной архитектуре. Интересно, какова вероятность такого события в предположении о случайности выбора...