Практикум 11

Выбор домена и доменной архитектуры

Для данного практикума взял домен Pyr_redox (PF00070). Он представляет собой небольшой NADH-связывающий домен внутри более крупного FAD-связывающего домена. Для данного домена есть 91 доменных архетиктур. Я выбрал доменную архетиктуру, содержащую 2 домена: Pyr_redox на в середине и FAD-depend_C на С-конце. Она включает 168 белков (репрезентативный - Q9SUH4).

Далее скачал последовательности подсемейства и выровнял их в Jalview алгоритмом Mafft. Удалил последовательности с идентичность больше 97%. Выравненные последовательности доступны по ссылке. Это будет позитивной выборкой.

Далее я обрезал все ненужное и оставил только участок с начала первого домена до конца второго. Удалил последовательности с идентичностью больше 97%. Выравненные последовательности доступны по ссылке. Это будет обучающей выборкой.

Для негативной выборки я объединил все белки из моей доменной архетиктуры, Pyr_redox и Pyr_redox_2 (55 белков), Pyr_redox и FAD_binding (39 белков), Pyr_redox и Pyr_redox_dim в один файл.

Построение HMM-профиля семейства белков

Для построения HMM-профиля, его калибровки и поиска по нему белков семейства в последовательностях выравнивания full был использован пакет HMMER со следующими командами:

  hmm2build -g hmm.txt domen_seq.fasta  
  hmm2calibrate hmm.txt  
  hmm2search --cpu 1 hmm.txt full_2.fasta > hmm2search_out.txt  

Профиль HMM доступен по ссылке

Файл с находками в итоговой выборке доступен по ссылке

Анализ HMM-профиля

С помощью скрипта, любезно предаставленным Каримовой Кариной, основные характеристики были собраны в таблицу.

ROC_curve.jpg

Pic.1. Гистограмма весов белков, видно, что за порог можно взять значение около 800