Практикум 9. Домены и профили

Выбранный домен

Для работы был взят домен SelP_N (PF04592). Это селенопротеин, встречающийся в плазме крови. Домен является частью 17 архитектур.

AC PF04592
Seed 8
Full 544
Средняя длина 166
Identity 32%
Длина HMM профиля 233
Число доменных архитектур 17

Для анализа была взята двухдоменная архитектура вида: SelP_N-SelP_C. Она встречается у 91 белка.

Все последовательности, содержащие данный домен (full), были скачаны в файл full-seq.fasta.

Затем в отдельный файл были скопированы только последовательности, содержащие нужную архитектуру: Needed-sequences.fasta

При построении выравнивания были удалены участки до первого домена и после второго. После удаления последовательностей, которые плохо выровнялись, и высокосходных последовательностей (были определены с помощью Redundancy 90) было отобрано 27 последовательностей. Файл с выравниванием: Needed-sequences.fasta.

HMM профиль

На основе полученного выравнивания с помощью пакета hmmer получили HMM профиль: HMM. Были использованы следующие команды:

hmm2build HMM needed-seq.fasta

hmm2calibrate HMM

hmm2search --cpu=1 HMM full-seq.fasta > search-table.txt

Результат работы команд - файл, на основые которого была сделана общая таблица (result-table.xlsx), содержащая информацию о белках с данным доменом, в том числе о вхождении в выборку для построения и вхождение в список находок.

Затем по таблице были построены следующие графики:

График 1: ROC кривая
График 2: Распределение весов
График 3: График функции F1

Первый график показывает зависимость частоты ложноположительных результатов от чувствительности. Площадь под кривой равна 9.4, а значит вероятности ошибок обоих родов малы, так как чем больше площадь под графиком, тем лучше работает критерий отбора.

Из графика F1 можно примерно определить пороговое значение веса - около 590.