Домены и профили

Выбор домена и доменной архитектуры

Для выбора домена я случайным образом выбрала букву, затем скопировала в таблицу и отфильтровала по нужным параметрам.

Из полученной отфильтрованной таблицы мной был выбран домен GAGA (GAGA factor), связывающийся с консенсусным сайтом 5'-GAGAG-3' на ДНК и содержащий ядро цинкового пальца: цистеин-гистидин. Характеристики домена:

AC: PF09237
число последовательностей в: seed – 2; full – 186; uniprot – 378
cредняя длина домена – 46.1 а/к
cреднее сходство (identity) – 42%
Средний процент покрытия последовательности белка доменом (coverage) – 9.8%

Для данного домена известны 26 различных архитектур. Для изучения была выбрана двудоменная архитектура, состоящая из домена GAGA и BTB (сначала идет BTB, затем GAGA) и встречающаяся в 77 последовательностях из 186 известных. Ее схема на рисунке 1:

Рис.1 Двудоменная архитектура GAGA и BTB

Все последовательности, содержащие домен GAGA, были скачаны в файл. Далее из полученного файла был составлен список AC, Их получилось 170 из-за того, что в скрите использовались множества и дубликаты были удалены (обнаружила это уже когда смотрела таблицу результатов hmmsearch, надеюсь, что это не критично)

Из раздела "Domain organisation" были скопированы описания с AC последовательностей, соответствующих выбранной двудоменной архитектуре (полученный файл с АС). Далее из файла full.fasta были выгружены последовательности, соответствующие выбранной архитектуре, по АС. Результат в fasta формате.

Полученный fasta файл был выровнен в Jalview, после чего над выравниванием была произведена ревизия: удалены субъективно-лишние последовательности и фрагменты выравнивания до первого домена и после второго, также были удалены все полностью-идентичные последовательности. Длина профиля составила 382 а/к, взято 24 последовательности. Результат в файле, а также на рисунке 2:

Рис.2 Выравненная учебная выборка

Построение HMM-профиля семейства белков

Для построения профиля, калибровки и поиска по профилю использовались следующие команды:

    hmm2build -g hmm_out.txt final.fasta
    hmm2calibrate hmm_out.txt
    hmm2search --cpu 1 hmm_out.txt full.fasta > hmm2search_out.txt

В результате был получен HMM-профиль двухдоменной архитектуры, именющий длину 384 аминокислот. hmm2search_out.txt — файл с результатами поиска профиля по набору белков с выбранным доменом.

Из полученного log файла была выгружена таблица с результатами поиска. В переданных последовательностях было найдено 158 последовательностей с E-value менее 0.01, в которых можно предположить наличие изучаемой двудоменной стрктуры. В двух последовательностях E-value было меньше порога (они не внесены в таблицу). Еще в десяти последовательностях полученный профиль не был найден

Анализ HMM-профиля

Из файла, полученного командой hmm2search, с помощью скрипта была получена таблица, содержащая информацию о 145 находках: AC, Domain, seq-f, seq-t, hmm-f, hmm-t, score, E-value. Также был добавлен столбец true с ответами yes – если AC встретился в списке белков с данной архитектурой, или no в противном случае. Данная таблица была экспортирована в Excel, после чего с помощью формул для нее были посчитаны значения specificity, 1 - sensitivity и F1. Таблица с данными, формулами и графиками доступна по ссылке. По полученным данным были построены следующие 3 графика:

По полученным specificity и 1 - sensitivity была построена ROC-кривая. Максимум длины от кривой до этой прямой, соединяющей конечные точки, имеет координаты: 1 - sensitivity – 0.1; specificity – 0.88. По полученным значениям был найден порог по score последовательности для отнесения к изучаемой двудоменной архитектуре – 430

Рис.3 ROC-кривая

Для визуализации полученного по ROC-кривой порога было построено распределение весов последовательностей. Полученный порог прошли 67 последовательностей из 77, которые обладают изучаемой двудоменной архитектурой.

Рис.4 Распределение весов последовательностей

Для визуализации полученного порога, а также подтверждения его значения по ROC-кривой была построена F1-кривая. Локальный максимум данного графика, соответствует оптимальному соотношению sensitivity и specificity. Значение порогового веса последовательнотси для отнесения к изучаемой двудоменной архитектуры незначительно отличается от такового полученного по ROC-кривой и составляет 428.4.

Рис.5 Распределение весов последовательностей