Домены и профили

1. Выбор домена и архитектуры

После долгих поисков на сайте Pfam мне приглянулся домен Oxidoreduct_C (PF16490), предположительно являющийся С-концевым доменом бактериальной оксидоредуктазы. Информация с Pfam доступна в Таблице 1.

ID Название seed full Uniprot Average length Average identity Average coverage Длина профиля HMM
PF16490 Oxidoreduct_C 16 178 759 275 aa 48% 59.75 % 279
Таблица 1. Основная информация о выбранном домене.
Далее была выбрана двухдоменная архитектура, включающая в себя GFO_IDH_MocA (NAD-binding Rossmann fold) и выбранный мною домен Oxidoreduct_C (Рисунок 1). Первый домен присутствует частично, так как края прямоугольника зубчатые. Такой архитектурой обладают 95 белков из 178.

arc
Рисунок 1. Выбранная двухдоменная архитектура.

2. Подготовка файлов

Далее с сайта Pfam мною были скачаны последовательности всех белков, включающих выбранный домен. Оказалось, что две последовательности продублированы, поэтому всего белков оказалось не 178, а 176. Файл доступен по ссылке. Затем я получила идентификаторы белков, имеющих вышеупомянутую архитектуру, и из файла со всеми последовательностями извлекла последовательности этих белков. В программе Jalview было выполнено выравнивание с помощью muscle (выравнивание без ревизии), удалены концы, не содержащие доменов, а также был поставлен порог Redundancy 85. В конечном итоге для построения профиля было отобрано 79 белков из 95. Их выравнивание доступно по ссылке.

3. Построение профиля

На сервере были запущены следующие команды:

hmm2build hmm edited_seqs.fasta

hmm2calibrate hmm

hmm2search --cpu=1 hmm full.fasta > result.txt
        
На выходе получились файлы: HMM профиль после калибровки, результаты hmm2search. На их основе я сделала требуемую таблицу. Все вышеупомянутые манипуляции были осуществлены с помощью питона.

4. Анализ результата

Далее я открыла полученную таблицу в Google sheets и построила по ней несколько графиков. На основании распределения весов находок довольно сложно определить пороговое значение веса, так как особо резких скачков не наблюдается, кроме как ближе к совсем низким значениям весов. На основании точки, максимально отклюняющейся от диагонали на ROC-кривой, оптимальный порог веса равен 1056,7.

Также была построена гистограмма длин белков с рассматриваемым доменом. Видно, что для них более всего характерна длина в диапазоне (453,492) .

arc
Рисунок 2. ROC кривая.

arc
Рисунок 3. Распределение весов находок.

arc
Рисунок 4. Гистограмма длин белков.