Практикум №10
Гомологи белка в Swiss-Prot
При запуске программы в окошко "Enter Query Sequence" вписал AC A0A0F7PBE2_9EURY, в "Job Title" - Dihydroxy-acid dehydratase, "Databese" - UniProtKB/Swiss-Prot, "Algorithm" - blastp. В алгоритмических параметрах установил "Max target sequences" на 250 находок, порог E-value на 0.05, "Word size" - 5, "Matrix" - BLOSUM62, "Composotional adjustments" - Conditional compositional score matrix adjustment.
В итоге находок оказалось много, больше 250. Текстовая выдача программы тут
Множественное выравние построил через Muscle with defaults, в Jalview. Последовательности импортировал из BLAST. Ссылка на проект в Jalview тут. Удалять никакие последовательности не стал, так как результат сам по себе сомнительный.
Гомологи зрелого вирусного белка в Swiss-Prot
Я выбрал полипротеин вируса Acute bee paralysis virus (strain Rothamsted) (ABPV), ID - POLN_ABPVR, AC - Q9DSN9. Зрелый белок - Peptidase C3, его координаты - 1638..1772. Ссылка на файл тут.
В запросе BLAST были установлены следующие параметры: окошко "Enter Query Sequence" заполнил файлом в формате fasta (ссылка на него в предыдущем абзаце), всё остальное оставил без изменений. В итоге было получено 17 находок, причём одна из них - это сам полипротеин. Ссылка на текстовую выдачу тут.
Выравнивание проводилось также, как и в прошлый раз, и получилось довольно хорошим. Кажется, что все белки - гомологи. Ссылка на выравнивание тут.
Исследование зависимости E-value от объёма банка
При ограничении запроса фильтром "Viruses" выдача всё так же, как и в прошлый раз, выдала 17 последовательностей. Однако значения E-value поменялись у всех и стали меньше на 1-2 порядка. Я выбрал значения E-value без фильтра, равное 5е-29, и с фильтром, равное 2е-30. Следовательно, доля вирусных белков в Swiss-Prot примерно 0.04.