Практикум 9. Белковые домены


Требуется выбрать два белковых домена.
Выбранные домены — PF00115, PF00510. Ниже приведены данные о них.



AC: 00115
ID: COX1
Название: Cytochrome C and Quinol oxidase polypeptide I
Число последовательностей среди бактерий: 13661




AC: 00510
ID: COX3
Название: Cytochrome c oxidase subunit III
Число последовательностей среди бактерий: 8528


Pfam выдал 153 белка, составленных только из данных двух доменов.




Uniprot же выдал 372 белка.
Поиск по UniProt был проведён со следующим запросом:

taxonomy:"Bacteria [2]" database:(type:pfam pf00115) database:(type:pfam pf00510)

Была составлена таблица с информацией о всех бактериальных белках с выбранной архитектурой.
В настройках Columns выбирал те колонки, которые были указаны на занятии:

Organism (Names & Taxonomy)
Protein names (Names & Taxonomy)
Length (Sequences)
Taxonomic lineage (FAMILY) (Taxonomic lineage)
Taxonomic lineage (GENUS) (Taxonomic lineage)
Taxonomic lineage (PHYLUM) (Taxonomic lineage)
Pfam (Family and domain)


Скачать таблицу в Excel-файле можно здесь.

HMM-профиль

На рисунке ниже представлено распределение длин белков, имеющих рассматриваемую двухдоменную архитектуру.

Распределение бимодально, характерный диапазон длин - от 710 до 980 аминокислот.


Последовательности выровнял с помощью программы muscle с параметрами по умолчанию, произвёл ревизию выравнивания, как было рекомендовано в указаниях, ссылка на jvp-проект .
Построил HMM-профиль с помощью пакета HMMER 2.3.2 на kodomo.
Команда: hmm2build -o revised_hmm.fa -F cox1cox3 revised.fa, откалибровал с помощью команды hmm2calibrate cox1cox3, ссылка на откалиброванный HMM-профиль.
Выбрал домен COX3, запрос для поиска в UniProt - taxonomy:"Bacteria [2]" database:(type:pfam pf00510). Ссылка на таблицу с результатами поиска и посчитанными метриками - чувствительностью и 1-специфичностью.
На рисунке ниже представлена ROC-кривая предсказания.

На рисунке ниже представлено распределение весов находок.

На рисунке ниже представлен график precision, recall и их среднего гармонического - f1-score в зависимости от порога предсказания.

В качестве порога предсказания выбрано значение веса 203, который был выбран максимизацией f1-score, который при этом пороге равен 0.998. На рисунке ниже представлена матрица ошибок

HMM-профиль показывает почти идеальное качество предсказания на заданной выборке, можно использовать для предсказания COX1-COX3-архитектуры.


© Борис Бостан
На страницу семестра
На главную