Выравнивание последовательностей

Характеристики списка находок

Был проведен поиск гомологов белка AMW05505.1(Type II secretion system protein E организма Gemmatimonas phototrophica) в банке Swiss Prot с помощью BLAST.
Число находок: 49
Число находок с E-value < 0.001: 21
Максимальное E-value: 8.4
В данном случае число находок ограничено значением E-value(так как максимальное число находок по умолчанию - 100, а найденных -49). Соответсвенно, при изменении порога E-value число находок скорее всего возрастет.


Изменение длины слова

Теперь изменяем длину слова с 6 на 2, что обеспечивает большую точность и объём поиска.
Число находок: 87
Число находок с E-value < 0.001: 23
Максимальное E-value: 10
После увеличения максимально разрешенного E-value число находок изменилось до 100, а максимальное E-value стало равно 13 - то есть, в данном случае поиск опять был ограничен порогом E-value.
Исходя из общего числа находок и тех, чей E-value был меньше 0,001, получилось, что несмотря на то, что самих находок стало больше, число находок, которых можно назвать значимыми, возросло не сильно(но все-таки возросло, поэтому чем меньше длина слова, тем более успешным будет поиск).


Изменение объема поиска

Был произведен поиск с теми же параметрами, по таксономической группе Proteobacteria.
Число находок: 100
E-value данной находки(у организма Neisseria gonorrhoeae, AC белка:Q06581) в данном поиске : 2e-29
E-value данной находки(у организма Neisseria gonorrhoeae, AC белка:Q06581) в предыдущем поиске: 8e-29
По e-value можно судить, что организмы группы Proteobacteria занимают 1/4 часть всех найденных в первом поиске организмов.
Score не зависит от объема поиска, а только от матрицы.
©Кондратенко Наталья, 2017