Практикум 9. Домены и профили.

Выбор домена и доменной архитектуру, содержащую этот домен

Для выполнения задания был взят домен DACZ_N (PF19294), который использовался в предыдущем практикуме. DAC - специфическая диаденилат циклаза, которая катализирует конденсацию 2 молекул АТФ в циклический ди-АМФ. Домен соответвует требованиям:

  • число последовательностей в full - 111
  • cредняя длина домена - 124 aa
  • cреднее сходство - 52%
  • средний процент покрытия последовательности белка доменом - 45,9%
  • число доменных архитектур - 3
  • одна из доменных архитектур подходит для выбора
  • Я выбрала доменную архитертуру, приведенную на Рис.1.

    photo

    Рис.1. Выбранная доменная архитерктура

    Скачивание полных последовательностей выборки full в формате fasta

    Скачивание производилось согласно указаниям. Назвала скаченный файл full.fasta

    Составление таблицы c колонкой АС всех последовательностей full

    Из полученного ранее файла full.fasta, используя скрипт, был получен список уникальных AC

    Далее получила список белков (их AC) с доменной архитектурой из Pfam.

    Построение выравнивания последовательностей с выбранной доменной архитектурой

    Выравнивание строила в Jalview. Провела ревизию выравнивания: удалила последовательности с идентичностью выше 85%. Привожу результат выравнивания и оптимизации.

    Построение HMM-профиля

    Для построения HMM-профиля использовала пакет HMMER, который установлен на kodomo. Были запущены следующие команды:

    hmm2build hmm allign.fa hmm2calibrate hmm hmm2search --cpu=1 hmm full.fasta &> out.txt

    Программой hmm2build построила профиль, программой hmm2calibrate отколлибровала его. Поиск по профилю осуществила программой hmm2search. Результат: out.txt

    На основе этих файлов с помощью скрипта, позаимствованного мной у Геннадия Беляева (выражаю благодарность), была создана таблица, в которую были добавлены столбцы с посчитанными значениями 1- specificity, sensitivity и F1. Столбцы 1-spec и sens отражают специфичность и чувствительность предсказания принадлежности белка семейству с двухдоменной архитектурой.

    Затем в Excel были построены графики:

    photo

    Рис.2. График ROS

    ROC-кривая была построена по полученным 1-specificity и sensitivity. У меня складывается ощущение, что она выглядит довольно странно в моем случае, потому что почти все последовательности в full.fasta принадлежали выбранной доменной архитектуре. Чтобы найти наиболее подходящий порог, была проведена прямая, соединящая конечные точки данной кривой и найден максимум длины от кривой до этой прямой. Точка, расположенная на максимальном расстоянии от пямой отмечена красным, ее кооорднаты (0, 0,385). Эти значения соотвествую весу - 339,7.

    photo

    Рис.3. Распределение весов.

    При падении весов заметна характерная ступенька.

    photo

    Рис.4. График F1

    Последний график был построен по колонкам Score и F1 в вышеприведенной таблице. Можно заметить, что резкий спад на графике произошел в той позиции, когда координата по оси с весом равна примерно 340 - это вес, котрый мы как раз предположили оптимальным.