При данных настройках BLAST выдача программы выглядела Следующим образом
Таблица 1. Используемые настройки BLAST
| Параметр | Значение |
|---|---|
| Database | UniProtKB/Swiss-Prot(swissprot) |
| Algorithm | blastp (protein-protein BLAST) |
| Max target sequences | 100 |
| Short queries | yes |
| Expect threshold | 0.05 |
| Word size | 5 |
| Max matches in a query range | 0 |
| Matrix | BLOSUM62 |
| Gap Costs | Existence: 11 Extension:1 |
| Compositional adjustments | Conditional compositional score matrix adjustment |
| Filters and Masking | no |
Случайным образом отобрано пять белков. Их аминокислотные последовательности в FASTA формате были подвержены множественному выравниванию в BLAST, полученные последовательности были загружены в Jalview выравнивались там же при помощи Muscle
У первых трех белков в выравнивании очень много блоков совпадающих колонок и мало гэпов, из чего можно сделать вывод, что эти белки гомологичны
В базе Uniprot был найден полипротеин вируса. Я выбрала белок VP2_POVSM
Данные о полипротеине
В поле FT по ключу CHAIN был выбран зрелый белок (/note="Minor capsid protein VP2") Он имеет координаты 2-332
С помощью EMBOSS был получен FASTA файл с аминокислотной последовательностью белка. Эта последовательность была обработана программой BLAST при тех же настройках ссылка на выдачу программы Далее последовательности были выровнены в Jalview
Я повторила поиск белков, используя фильтр по организмам (получила только вирусные белки). Количество полученных белков не измненилось. Однако изменились E-value у некоторых белков например у Minor structural protein VP2 [Gammapolyomavirus avis] он изменился с 2е-36 на 8е-38 то есть уменьшился. Из параметров влияющих на E-value изменился только размер базы данных, слледовательно если разделить E-value при поиске с фильтром на вирусы на E-value полученное при поиске без фильтров можно получить долю вирусных белков в базе данных. В итоге она равна примерно 4%