1. Характеристики списка находок

Ниже приведены некоторые характеристики результатов поиска гомологов белка ALU89561.1:

Всего находок - 60

Находок с E-value < 0.001 - 52

Максимальное значение E-value - 3.7

Как можно заметить, список находок не лимитирован стандартными настройками BLAST - его не ограничивают ни максимальное значение E-value (10), ни максимальное число находок (100).

2. Изменение длины слова

Чем меньше длина слов, на которые разбивается аминокислотная последовательность и по которым происходит ее сравнение с другими последовательностями, тем выше чувствительность BLAST, а следовательно, тем меньше вероятность пропустить хорошие гомологи исследуемого белка. На сайте NCBI значение длины слова по умолчанию равно 6, именно при таком значении были получены характеристики из пункта 1. Установив длину слова, равную двум, а максимальное число находок - равное 250, получаем следующее:

Всего находок - 134

Находок с E-value < 0.001 - 68

Максимальное значение E-value - 9.6 (ограничение на максимальное значение E-value равно 10)

C повышением чувствительности алгоритма снизилась скорость обработки запроса, однако на выходе мы получили большее число находок со значением E-value < 0.001

3. Изменение объёма поиска

Описание сеанса поиска, аналогичного прошлому, но в этот раз с ограничением на таксон организма, которому принадлежит белок P52337.1:

Таксономия: Bacteria; Cyanobacteria; Nostocales; Nostocaceae; Nostoc; Nostoc commune

Выбранный таксон - Cyanobacteria

E-value выравнивания без ограничения таксоном - 8·10-157

E-value с ограничением таксоном - 2·10-158

Известно, что значение E-value зависит от размера базы данных (=от объема поиска), по которой ведется поиск. Указав, по белкам какого таксона должен проводиться поиск гомологов, мы сократили объем поиска, с чем связано уменьшение значения E-value из примера выше. Величина E-value прямо пропорциональна размеру банка. Исходя из этого, можно сделать вывод, что записи Cyanobacteria составляют 0.025 часть всего банка. В свою очередь, вес выравнивания (обычный или в битах) не изменяется при изменении размера базы данных.