Работа с BLAST

Таблица 1. Характеристики выдачи BLAST для AMW06251.1, длина слова 6.

Характеристика Значение
Число находок 74
Число находок с E-value<0.001 65
Максимальное E-value 9.9
Что лимитирует выдачу E-value

Таблица 2. Характеристики выдачи BLAST для AMW06251.1, длина слова 2.

Характеристика Значение
Число находок 126
Число находок с E-value<0.001 70
Максимальное E-value 9.9
Что лимитирует выдачу E-value

Для поиска с длиной слова 2 больше находок, в том числе и с хорошим E-value. Замечу что поиск гомологов с длиной слова 6 идёт быстрее, чем с длинной слова 2. В то же время для поиска более близких гомологов подходит алгоритм поиска с длинной слова 6, так как меньше случайных совпадений. Однако если мы допустим открыли новое семейство белков, то разумнее использовать при поиске длину слова 2, так как таким образом мы найдём больше всего гомологов для дальнейшего отбора наиболее близких гомологов.

Для следующего задания взят белок Choline-sulfatase (AC:O69787) из Bacteria; Proteobacteria; Alphaproteobacteria; Rhizobiales; Rhizobiaceae; Sinorhizobium/Ensifer group; Sinorhizobium. E-value:4e-26 Поиск вёлся по таксону Alphaproteobacteria.

Итог: E-value:1e-26 , при этом количсетво находок изменилось с 126 на 43. Т.е уменьшилось примерно в 4 раза, так же как и значение E-value(уменьшился объём базы данных в 4 раза) Score(обычный или битовый) при этом не изменятся.