После долгих поисков на сайте Pfam мне приглянулся домен
Oxidoreduct_C (PF16490), предположительно являющийся С-концевым доменом бактериальной оксидоредуктазы. Информация с Pfam доступна в
Таблице 1.
ID |
Название |
seed |
full |
Uniprot |
Average length
|
Average identity |
Average coverage |
Длина профиля HMM |
PF16490 |
Oxidoreduct_C |
16 |
178 |
759 |
275 aa |
48% |
59.75 % |
279 |
Таблица 1. Основная информация о выбранном домене.
Далее была выбрана двухдоменная архитектура, включающая в себя GFO_IDH_MocA (NAD-binding Rossmann fold) и выбранный мною домен Oxidoreduct_C (Рисунок 1). Первый домен присутствует частично, так как края прямоугольника зубчатые. Такой архитектурой обладают 95 белков из 178.
Рисунок 1. Выбранная двухдоменная архитектура.
Далее с сайта Pfam мною были скачаны последовательности всех белков, включающих выбранный домен. Оказалось, что две последовательности продублированы, поэтому всего белков оказалось не 178, а 176. Файл доступен по
ссылке. Затем я получила идентификаторы белков, имеющих вышеупомянутую архитектуру, и из файла со всеми последовательностями извлекла
последовательности этих белков.
В программе Jalview было выполнено выравнивание с помощью muscle (
выравнивание без ревизии), удалены концы, не содержащие доменов, а также был поставлен порог Redundancy 85. В конечном итоге для построения профиля было отобрано 79 белков из 95. Их выравнивание доступно по
ссылке.
3. Построение профиля
На сервере были запущены следующие команды:
hmm2build hmm edited_seqs.fasta
hmm2calibrate hmm
hmm2search --cpu=1 hmm full.fasta > result.txt
На выходе получились файлы:
HMM профиль после калибровки,
результаты hmm2search.
На их основе я сделала требуемую
таблицу. Все вышеупомянутые манипуляции были осуществлены с помощью
питона.
Далее я открыла полученную таблицу в
Google sheets и построила по ней несколько графиков.
На основании распределения весов находок довольно сложно определить пороговое значение веса, так как особо резких скачков не наблюдается, кроме как ближе к совсем низким значениям весов. На основании точки, максимально отклюняющейся от диагонали на ROC-кривой, оптимальный порог веса равен 1056,7.
Также была построена гистограмма длин белков с рассматриваемым доменом. Видно, что для них более всего характерна длина в диапазоне (453,492) .
Рисунок 2. ROC кривая.
Рисунок 3. Распределение весов находок.
Рисунок 4. Гистограмма длин белков.