Домены и сервис PFAM
Для работы были выбраны два белковый домена, которые обеспечивают резистентность бактерий к некоторым антибиотикам.
ID | PF00144 | PF05547 |
AC | Beta-lactamase | Peptidase_M6 |
Название | Бета-лактамаза | А-иммуноингибиторная пептидаза M6 |
Число находок в Uniprot | 140900 | 8736 |
Для двухдоменной структуры Pfam показывает 177 последовательностей, а Uniprot — 637.
![Сайт ФББ](domains.png)
Скачать таблицу с отобранными белками
Была получена гистограмма длин белков:
![Сайт ФББ](Hystogramme.png)
Медиана длин белков составила 564-620 аминокислот.
И были отобраны ~40 последовательностей типичной длины.
Белки были отобраны из следующих семейств: Bacillaceae, Egibacteraceae, Frankiaceae, Glycomycetaceae, Intrasporangiaceae, Jiangellaceae, Microbacteriaceae, Micromonosporaceae, Nocardioidaceae, Planococcaceae, Promicromonosporaceae, Propionibacteriaceae, Pseudonocardiaceae, Streptomycetaceae, Streptosporangiaceae, Thermoactinomycetaceae, Thermomonosporaceae.
Скачать таблицу с отобранными белкамиДля поиска доменной структуры были выбраны белки, несущие домен Beta-lactamase. Их оказалось 140900.
Вот тут можно скачать все сопроводительные материалы к практикуму: исходные и промежуточные файлы, результаты работы скрипта, отбирающего последовательности и строящего график.
Команда калибровки: hmm2calibrate hmm.
Профиль hmm: hmm.
Команда поиска: hmm2search hmm all_2.fasta > out.txt.
ROS-кривая.
График распределения весов.
Скачать табличку с весами, специфичностью и прочее-прочее: табличка.
Так как в анализ вошло множество последовательностей, не несущих двухдоменную структуру, значение специфичности сохранялось очень высокое по ходу всего анализа; поэтому ось х начинается от 0,992.
Всего скриптом было проанализирован вывод 80000 последовательностей, обработанных программой (установленный в команде порог e-value составил 0,2. Всего в качестве входных данных было подано 140000 последовательностей, несущих домен с бета-лактамазной активностью.
Из 637 последовательностей, найденных программой Uniprot, HMMER находит 642 (дубликаты?) последовательностей.
True | False | |
Positive | 376 | 23 |
Negative | 78384 | 266 |
Такой порог был выбран так как мы боимся ложно-негативных результатов как ошибки второго рода.