Домены и профили

Составление списка белков из UniProt с заданным доменным составом Pfam

Для выполнения задания был выбран домен PRCH (AC:PF03967) - Photosynthetic reaction centre, H-chain N-terminal region с 248 последовательностями у бактерий и домен PRC (AC:PF05239) - PRC-barrel domain с 12736 последовательностями у бактерий. Была выбрана доменная структура, приведенная на картинке ниже. Всего в Pfam нашлось 243 последовательности с такой структурой.

Также была получена таблица со списком последовательностей и была взята представительная выборка из 56 последовательностей (столбцы selected и selected as list в файле). Полученную диаграмму длин можно увидеть на картинке ниже.

Построение HMM-профиля

Белки полученной выборки использовались в построении HMM профиля. Последовательности белков из выборки были выравнены в программе JalView с помощью Muscle (выравнивание можно скачать по ссылке. Выравнивание было обработано и сохранено в формате fasta. С помощью команд "hmm2build pr9.hmm pr9.fasta" и "hmm2calibrate pr9.hmm" hmm профиль был построен и откалиброван. Скачать его можно по ссылке. Затем из базы данных uniprot были получены последовательности 50139 белков в fasta формате. С помощью команды "hmm2search pr9.hmm pf05239_1.fasta > pr9_1.txt" был совершен поиск по этим белкам. Были взяты последовательности с e-Value ниже 0.1 и они были проанализированны в excel. Были получены графики score и кривая ROC.

Полученную таблицу можно скачать по ссылке. При помощи вычесленной f1 можно узнать, что оптимальным пороговым весом является 18.0. При этом тесте подтвердились 742 последовательности с нашей архитектурой и 15 без нее. Не прошли тест 0 последовательностей с нашей архитектурой и 10 последовательностей без нее. Чувствительность равна 100%, специфичность - 28,6%. Как видно из score ступеньки, даже при такой высокой e-value как 0.1, находок с небольшим или отрицательным score оказалось немного. Также все найденные последовательности с нашей архитектурой были приняты тестом. Все это может указывать на высокую консервативность и, возможно, специфичность данной архитектуры.

Назад
На главную