Домены и профили

Выбор домена

При выборе была использована таблица, составленная Владиславом Мурзиным. Таблица содержит домены, отвечающие требованиям, указанным в практикуме.

Для работы был выбран домен GAGA.

  • AC: PF09237
  • Seed: 2
  • Full: 186
  • Average length: 46.1
  • Average coverage: 9.8%
  • HMM length: 54

Файл со всеми последовательностями.

Далее была выбрана архитектура "BTB, GAGA" представленная в базе данных 77 последовательностями.

In [56]:

Out[56]:
AC Is in BTB GAGA
0 B4LF53_DROVI +
1 A0A0J8QZW7_COCIT -
2 A0A5B7EKL2_PORTR -
3 A0A0Q9WV28_DROVI +
4 A0A6P7H2K3_DIAVI -

Таким образом была создана таблица, содержащая в одной колонке AC всех последовательностей, содержащих домен GAGA, а в другой информацию о том, содержит ли данная последовательность и BTB домен тоже ("+" - содержит, "-" - не содержит).

Выравнивание белков с двухдоменной архитектурой

Был получен FASTA-файл с последовательностями с архитектурой "BTB, GAGA". Последовательности были выровнены в программе MEGA с помощью алгоритма muscle. Исходное выравнивание доступно по ссылке.

Далее выравнивание было отредактировано. Были удалены плохо выровненные последовательности, удалены участки до первого и после второго мотивов. Таким образом получена выборка из 41 последовательности. Отредактированное выравнивание доступно по ссылке.

HMMsearch

При помощи команды

hmm2build profile btb_gaga_align_red.fas

был получен HMM-профиль. Командой

hmm2calibrate profile

профиль был откалиброван.

При помощи команды

hmmsearch --cpu=1 profile full.fasta

был произведен поиск доменной архитектуры по базе данных белков из ранее полученного файла. Выдача программы доступна по ссылке.

На основе выдачи программы составлена приведенная ниже таблица (она же в формате СSV).

In [82]:
df
Out[82]:
AC Is in BTB GAGA Used to create HMM-profile Is found by HMMsearch Score E-value
0 B4LF53_DROVI + + + 899.3 1.6e-272
1 A0A0J8QZW7_COCIT - - - - -
2 A0A5B7EKL2_PORTR - - - - -
3 A0A0Q9WV28_DROVI + + + 898.9 2.1000000000000002e-272
4 A0A6P7H2K3_DIAVI - - - - -
... ... ... ... ... ... ...
181 W5J545_ANODA + - + 322.6 3.2e-98
182 A0A2P8Y458_BLAGE - - - - -
183 A0A6I8VK47_DROPS + - + 908.5 2.5e-275
184 A0A6P8YA88_THRPL + - + 95.1 1.8e-29
185 A0A1J9P6J6_9EURO - - - - -

186 rows × 6 columns

При помощи скрипта была построена ROC-кривая. По ее форме можно сделать вывод о достаточно хорошем качестве HMM-профиля. ROC-кривая приведена ниже.

In [87]:
Image('ROC.png')
Out[87]:

Также посчитан пороговый вес с наибольшим значением F1, он оказался равным 207,2.