"Удивлен, человечек? Это я. До того, как стал чистилищем. До того, как на меня налипли роли. Я хотел превратиться в них, в моих героев, и уйти дальше. Но они не выводили меня, а оставались во мне, как нарывы. Все оставались. Я впрыгивал из роли в роль – и каждый раз что-то из предыдущей роли оседало на мне – налипало. Ни одна роль не спасла меня, и ни от одной я не мог избавиться. Мой прыжок становился всё тяжелее и тяжелее."

Безумный ангел Пиноккио, Андрей Вишневский.

Добро пожаловать!

Домены и сервис PFAM

Для работы были выбраны два белковый домена, которые обеспечивают резистентность бактерий к некоторым антибиотикам.

ID PF00144 PF05547
AC Beta-lactamase Peptidase_M6
Название Бета-лактамаза А-иммуноингибиторная пептидаза M6
Число находок в Uniprot 140900 8736

Для двухдоменной структуры Pfam показывает 177 последовательностей, а Uniprot — 637.

Сайт ФББ

Скачать таблицу с отобранными белками

Была получена гистограмма длин белков:

Сайт ФББ

Медиана длин белков составила 564-620 аминокислот.

И были отобраны ~40 последовательностей типичной длины.

Белки были отобраны из следующих семейств: Bacillaceae, Egibacteraceae, Frankiaceae, Glycomycetaceae, Intrasporangiaceae, Jiangellaceae, Microbacteriaceae, Micromonosporaceae, Nocardioidaceae, Planococcaceae, Promicromonosporaceae, Propionibacteriaceae, Pseudonocardiaceae, Streptomycetaceae, Streptosporangiaceae, Thermoactinomycetaceae, Thermomonosporaceae.

Скачать таблицу с отобранными белками

Для поиска доменной структуры были выбраны белки, несущие домен Beta-lactamase. Их оказалось 140900.

Вот тут можно скачать все сопроводительные материалы к практикуму: исходные и промежуточные файлы, результаты работы скрипта, отбирающего последовательности и строящего график.

Команда калибровки: hmm2calibrate hmm.

Профиль hmm: hmm.

Команда поиска: hmm2search hmm all_2.fasta > out.txt.

ROS-кривая.

Инстаграмм

График распределения весов.

Скачать табличку с весами, специфичностью и прочее-прочее: табличка.

Так как в анализ вошло множество последовательностей, не несущих двухдоменную структуру, значение специфичности сохранялось очень высокое по ходу всего анализа; поэтому ось х начинается от 0,992.

Всего скриптом было проанализирован вывод 80000 последовательностей, обработанных программой (установленный в команде порог e-value составил 0,2. Всего в качестве входных данных было подано 140000 последовательностей, несущих домен с бета-лактамазной активностью.

Из 637 последовательностей, найденных программой Uniprot, HMMER находит 642 (дубликаты?) последовательностей.

True False
Positive 376 23
Negative 78384 266

Такой порог был выбран так как мы боимся ложно-негативных результатов как ошибки второго рода.