Практикум 9. Белковые домены
Требуется выбрать два белковых домена.
Выбранные домены — PF00115, PF00510. Ниже приведены данные о них.
AC: 00115
ID: COX1
Название: Cytochrome C and Quinol oxidase polypeptide I
Число последовательностей среди бактерий: 13661
AC: 00510
ID: COX3
Название: Cytochrome c oxidase subunit III
Число последовательностей среди бактерий: 8528
Pfam выдал 153 белка, составленных только из данных двух доменов.
Uniprot же выдал 372 белка.
Поиск по UniProt был проведён со следующим запросом:
taxonomy:"Bacteria [2]" database:(type:pfam pf00115) database:(type:pfam pf00510)
Была составлена таблица с информацией о всех бактериальных
белках с выбранной архитектурой.
В настройках Columns выбирал те колонки, которые были указаны на занятии:
Organism (Names & Taxonomy)
Protein names (Names & Taxonomy)
Length (Sequences)
Taxonomic lineage (FAMILY) (Taxonomic lineage)
Taxonomic lineage (GENUS) (Taxonomic lineage)
Taxonomic lineage (PHYLUM) (Taxonomic lineage)
Pfam (Family and domain)
Скачать таблицу в Excel-файле можно здесь.
HMM-профиль
На рисунке ниже представлено распределение длин белков, имеющих рассматриваемую двухдоменную архитектуру.
Распределение бимодально, характерный диапазон длин - от 710 до 980 аминокислот.
Последовательности выровнял с помощью программы muscle с параметрами по умолчанию, произвёл ревизию выравнивания, как было рекомендовано в указаниях, ссылка на jvp-проект .
Построил HMM-профиль с помощью пакета HMMER 2.3.2 на kodomo.
Команда: hmm2build -o revised_hmm.fa -F cox1cox3 revised.fa, откалибровал с помощью команды hmm2calibrate cox1cox3, ссылка на откалиброванный HMM-профиль.
Выбрал домен COX3, запрос для поиска в UniProt - taxonomy:"Bacteria [2]"
database:(type:pfam pf00510). Ссылка на таблицу с результатами поиска и посчитанными метриками - чувствительностью и 1-специфичностью.
На рисунке ниже представлена ROC-кривая предсказания.
На рисунке ниже представлено распределение весов находок.
На рисунке ниже представлен график precision, recall и их среднего гармонического - f1-score в зависимости от порога предсказания.
В качестве порога предсказания выбрано значение веса 203, который был выбран максимизацией f1-score, который при этом пороге равен 0.998.
На рисунке ниже представлена матрица ошибок
HMM-профиль показывает почти идеальное качество предсказания на заданной выборке, можно использовать для предсказания COX1-COX3-архитектуры.
© Борис Бостан
На страницу семестра
На главную