Описание параметров выравнивания BLAST
Subquery range - учитываемый фрагмент последовательности
Database - банк последовательностей
Taxonomy - таксон искомых гомологов
Program - программа для поиска
Max target sequences 100 - максимальный размер выдачи
Short queries Automatically adjust parameters for short input sequences - для коротких последовательностей
автоматически применить соответствующие им параметры.
Expect threshold 0.05 - максимальный Evalue находок
Word size 5 - размер якоря
Max matches in a query range 0 - ограничение по совпадающим буквам в промежутке
Scoring Parameters Matrix BLOSUM62 - выбор матрицы
Gap Costs Existence: 11 Extension: 1 - настройки штрафа за открытие и продолжение инделя.
Low complexity regions filter - учесть участки малой сложности
Выдача Blast для белка из практикума 7
Выравнивание
Гомологи вирусного белка
Seoul virus (strain R22)
ID GP_SEOUR
AC P28729
Query:
Note: Glycoprotein N
Range: [17:646]
Выдача Blast
Вырывнивание
vprot.fasta
Оценка доли вирусных белков
Для данной задачи не подходит выбранный мной ранее GP_SEOUR, ведь все результаты имели Eval=0.0
Virus: Heartland virus
19..566 Glycoprotein N
Выдача при поиске по всем организмам Eval=2*10^-32
Выдача при поиске по вирусам Eval=7*10^-34
E-value прямо пропорциональна размеру банка. Из этого следует, что доля
белков вирусов в банке: 7*10^-34/(2*10^-32)*100% = 3.5%