Для поиска гомологов моего белка холерного токсина нужно ввести запрос в BLAST со следующими параметрами:
Для начала нужно указать AC моего белка. Искать гомологов будем по всей последовательности, поэтому Query Subrange не заполняем. В окне Database выбираем UniProtKB/SwissProt для поиска по аннотированным записям. Можно было искать гомологов в определенном таксоне, или наоборот исключить какой-то таксон, пока не будем этим пользоваться. Алгоритмом выбран blastp, то есть выравнивание и поиск белковых последовательностей.
Можно указать параметры алгоритма BLAST. Max target sequences — максимальное число находок, которые выдаст алгоритм. Expect threshold — максимальное E-value для находок. Word size — параметр, необходимый для работы самого алгоритма (как я понимаю, чем больше размер слова, тем точнее будет поиск). Ибо поиск последовательностей проводится на основе наличия идентичных/похожих слов в записях (все записи кластеризированы по словам). Матрица BLOSUM62, которая будет использована для выравнивания, также параметры штрафов за гэпы. Остальные параметры нужны для улучшения качества поиска для коротких последовательностей, последовательностей с большим числом повторов и так далее.
Результат поиска — здесь
Чтобы попробовать получить больше находок, длина слова была изменена с 5 на 2, но результат не изменился, поэтому выравниваем 4 белка (не считая наш): ELAP_ECOLX ELAH_ECOH1 E2AA_ECOLX E2BA_ECOLX
Я скачала их последовательности в FASTA формате, загрузила их в JalView и выровняла программой T Coffee with defaults, используя Web Service в JalView.
Последовательности выравнялись хорошо, есть консервативные участки, можно утверджать о гомологичности белков.
Ссылка на проект JalView — здесьЯ выбрала следующий полипротеин: ID: POL_FFV, AC: O93209, OS: Feline foamy virus.
Этот протеин содержит зрелый белок Ribonuclease H, координаты 593..748. Последовательность этого зрелого белка была записана в отдельный FASTA файл следующей командой:
Этот файл был подан программе BLAST с теми же параметрами, что выше.
Результат поиска — здесь
Для построения выравнивания были выбраны белки следующие белки: POL_FOAMV RNH_PSET1 RNH_LACP7 RNH_RALN1 POL_SFVCP POL_SFV3L
Выравнивание получилось нормальным, учитывая, что это вирусы, можно назвать белки гомологичными.
Ссылка на проект JalView — здесьЕсли указать в параметрах BLAST поиск по Viruses(taxid: 10239), то число находок уменьшится с 71 до 5, выдача здесь. Значения E-value для этих находок изменились, вот некоторые из них: 7e-105 → 3e-106; 1e-50 → 6e-52; 3e-50 → 1e-51. Т. к. значение E-value зависит от размера базы данных линейно, можем предположить, что доля вирусных белков в базе данных UniProtKB/SwissProt есть отношение этих E-value, т.е. составляет около 4.2%