|
||||
Для составления профиля были выбраны 15 белков протеобактерий, содержищих один единственный аконитазный домен PF00330. Выравнивание аконитазных доменов: Aco1_Proteobacteria_STANDART.fa На сервере Kodomo ввели команду:
hmm2build out Bacteria_Aco1_STANDART.fa
Из БД Uniprot были найдены (Search:"PF00330") и скачаны последовательности всех белков, содержащих домен PF00330. Было скачано более 22'732 последовательностей: PF00330.rar По профилю был произведён поиск среди скачанных белков. Из соображений, что порог по e-value должен быть близок к максимальному e-value для находок из числа стандарта (6.1e-302), порог был установлен на уровне 10E-300.
hmm2search -E 10E-200 out PF00330.fasta PRO
Составленный профиль оказался очень неточным. Из 22'732 он выделяет 5'269 белков, причём при выполнении предыдущего практикума было показано, что протеобактерий с архитектурой, состоящей из одного аконитазного домена, ~2'100. Расширение золотого стандарта с 15 белков до 21 (Aco1_Proteobacteria_STANDART2.fa) привело к тому, что при прежнем пороге e-value 10E-300 новый профиль (out2) все белки стандарта, хотя количество находок по прежнему высоко — 5'344. Информация о поиске при помощи профилей: Prof.xlsx (PPV — 0.28%, R — 100% — высокая чувствительность, очень низкая избирательность) Такую неэффективность можно объяснить тем, что домены в протеобактериях очень похожи на эти же домены в бактериях вообще. |