Для работы был взят домен SelP_N (PF04592). Это селенопротеин, встречающийся в плазме крови. Домен является частью 17 архитектур.
AC | PF04592 |
---|---|
Seed | 8 |
Full | 544 |
Средняя длина | 166 |
Identity | 32% |
Длина HMM профиля | 233 |
Число доменных архитектур | 17 |
Для анализа была взята двухдоменная архитектура вида: SelP_N-SelP_C. Она встречается у 91 белка.
Все последовательности, содержащие данный домен (full), были скачаны в файл full-seq.fasta.
Затем в отдельный файл были скопированы только последовательности, содержащие нужную архитектуру: Needed-sequences.fasta
При построении выравнивания были удалены участки до первого домена и после второго. После удаления последовательностей, которые плохо выровнялись, и высокосходных последовательностей (были определены с помощью Redundancy 90) было отобрано 27 последовательностей. Файл с выравниванием: Needed-sequences.fasta.
На основе полученного выравнивания с помощью пакета hmmer получили HMM профиль: HMM. Были использованы следующие команды:
hmm2build HMM needed-seq.fasta
hmm2calibrate HMM
hmm2search --cpu=1 HMM full-seq.fasta > search-table.txt
Результат работы команд - файл, на основые которого была сделана общая таблица (result-table.xlsx), содержащая информацию о белках с данным доменом, в том числе о вхождении в выборку для построения и вхождение в список находок.
Затем по таблице были построены следующие графики:
Первый график показывает зависимость частоты ложноположительных результатов от чувствительности. Площадь под кривой равна 9.4, а значит вероятности ошибок обоих родов малы, так как чем больше площадь под графиком, тем лучше работает критерий отбора.
Из графика F1 можно примерно определить пороговое значение веса - около 590.