Практикум 11

Выбор домена, подсемейства и подготовка данных для работы

Краткая информация по выбранному домену:

  1. AC: PF18933
  2. Название: PsbP-like protein
  3. Описание и функции: является родственным к семейству PsbP (белки тилакодной субъединицы фотосисистемы 2; DOI: 10.1007/s11120-008-9359-1)
  4. Seed: 5
  5. Full: 238
  6. Файл со всеми последовательностями: PF18933-full-238.fasta

Для построения профиля я выбрал архитектуру, представленную белком K7VUZ8. В ней было 156 последовательностей. Я выровнял их алгоритмом MAFFT, затем вырезал участок, содержащий два домена, и выровнял его еще раз (сначала через MAFFT, а потом через MUSCLE, так как мне не понравилось начало нового выравнивания). Я удалил те последовательности, из-за которых возникали длинные индели в участках доменов, и установил порог для Remove redundancy 90%. После всех этих преобразованией в конченой выборке осталось всего 96 белков.

  1. файл выравнивания белков, содержащих домен, в формате fasta
  2. последовательности белков с выбранным доменом
  3. последовательности без выбранной архитектуры
  4. файл со всеми белками, обладающими выбраной архитектурой
  5. файл с отобранными для построения профиля белками (arch_redact.fa)

Работа с HMM

Ниже представлены команды, с помощью которых я создал и откалибровал профиль (длина 525), а также провел поиск по PF18933-full-238.fasta:

  1. hmm2build hmm2_profile arch_redact.fa
  2. hmm2calibrate hmm2_profile
  3. hmm2search --cpu=1 hmm2_profile full-seq-238.fasta > hmm2_res.txt

Результат работы HMM2 для тестовой выборки и отрицательного контроля.

Анализ полученных данных

Я записал таблицу из hmm2_res.txt в отдельный файл и отредактировал её, чтобы облегчить дальнейшую работу (ссылка на таблицу). Аналогичная таблица была сделана для отрицательного контроля. Далее используя python, я добавил к этой таблице столбцы: has_architecture и in_profile, где 1 соответствует True, а 0 - значению False (ссылка на блокнот в Colab). Работу с новой таблицей я продолжил в excel, где посчитал значения чувствительности и специфичности, по которым построил ROC-кривую. По данному графику (см. Рис. 1) и гистограмме весов последовательностей я установил порог веса равным -270. Итоговая таблица.

Рис. 1. ROC-кривая. По оси 0X - специфичность, по 0Y - чувствительность (достигает почти максмального значения при специфичность равной 0,56).
Рис. 2. Гистограмма распределения весов белков тестовой выборки, найденных по построенному профилю (можно выделить вес -270 как возможное пороговое значение).
Рис. 3. Гистограмма распределения весов белков отрицательного контроля, найденных по построенному профилю.