Практикум №9

На главную На страницу четвёртого семестра

— — — — — — — —

Задание №1

Выбранные домены – GTP_EFTU (ID: GTP_EFTU, AC: PF00009, число последовательностей у бактерий: 55709) и EFG_II (ID: EFG_II, AC: PF14492, число последовательностей у бактерий: 13792).

Выбранная доменная архитектура:

Далее для поиска в UNIPROT был составлен поисковый запрос:

Была построена гистограмма длин, по которой была определена мода – от 687 до 706:

Как можно видеть, мода имеет три пика.

В таблице не оказалось белков имеющих строго доменную структуру из двух доменов. Видимо, в аннотированных последовательностях нет строго двудоменной структуры из представленных доменов. Поэтому было решено не использовать фильтр по доменам для выбора белков по наиболее распространённой длине.

Скачать итоговую таблицу Скачать таблицу использованных семейств и родов в формате csv Скачать Jupiter notebook скрипта Скачать python скрипт

Задание №2

Выравнивание было выполнено при помощи метода Muscle with defaults в программе Jalview. Результат обработки выравнивания:

Для проведения поиска по всем белкам с доменом был выбран домен GTP_EFTU, так как хоть его содержит и большее число белков, но при этом другой домен встречается практически только в составе двухдоменного комплекса с первым, что делает невозможным проверку на других белках. В качестве порога E-value было выбрано значение 0.1 (рекомендованное). Список команд:

  1. hmm2build -g profile align.fa
  2. hmm2calibrate profile
  3. hmm2search -E 0.1 profile PF00009.fasta > pr9_2_profile_table.txt

Скачать HMM-профиль после калибровки

График распределения веса:

ROS-кривая:

Итоговый пороговый вес – 1333. Это хорошо согласуется с графиком веса, так как примерно на таких значениях и начинается резкое падение веса. Полученная сводная таблица (сверху – пересечение двух таблиц, сбоку – выше ли вес, чем порог):

Скачать Jupiter notebook Скачать python скрипт