Дополнительные настройки программы BLAST

Задание 1. Характеристики списка находок

Максимальное число находок:
100 E-value всех находок меньше 1/1000, максимальное значение - 5*10-21. Нашлось 100 последовательностей, то есть их количество лимитировано параметром описка
250 Нашлось 250 последовательностей, максимальное E-value 6*10-7
500 Было найдено 322 гомолога, их количество лимитировано порогом на E-value. Максимальное его значение этом в поиске - 4.4. Находок с E-value < 0.001 оказалось 294.

Задание 2. Изменение длины слова

При ограничении количества находок в 500 штук, нашлись все 500. При этом максимальное E-value равно 0.15. Нашлось 419 вхождений с E-value < 0.001

Задание 3. Изменение объема поиска

Искали по классу Bacilli, к которому относится находка Putative dipeptidase SSP1012 из поиска без ограничений по организму с E-value равным 8*10-4. В поиске по классу ее E-value равно 6*10-5. Поскольку этот показатель прямо пропорционален объему поиска, а другие параметры поиска не менялись, можно оценить количество последовательностей белков данного таксона, которые лежат в банке Swiss-Prot. В банке всего 557275 записей. Тогда записей из класса Bacilli 557275*6*10-5/8*10-4=41795.625. Число получилось дробным из-за того, что BLAST выдает округленные значения E-value. Можно считать, что в банке Swiss-Prot 41796 записей, принадлежащих классу Bacillus. Однако проверка через сайт uniprot дает другой результат: 55428. Причина расхождения остается загадкой с учетом того, что подсчет по результатам бласта других белков дает другое количество записей из класса Bacillus.
Как и предполагалось, score при изменении объема базы для поиска не меняется, так как каждое выравнивание считается самостоятельно, вне зависимости от того, к какой банку приналдежит. Score в битах не меняется тоже, потому что формула для пересчета не содержит объем банка в качестве переменной.

Задание 4. Другие веб-интерфейсы BLASTP

Сравним веб-интерфейс BLAST-а, созданный NCBI, с таковым у Uniprot. В первую очередь бросается в глаза, что Uniprot предлагает меньшее количество настроек алгоритма: здесь нельзя выбрать длину слова для поиска или изменить штрафы за открытие и продолжение инделя. Также не предлагается выровнять 2 или более последовательностей. Через веб-интерфейс Uniprot нельзя ограничить поиск какой-то таксономической группой, за исключением дюжины предложенных. Однако здесь можно искать по кластерам последовательностей UniRef, что может существенно ускорить и сделать более осмысленным процесс при поиске по всему UniProt, большинство последовательностей которого не аннотировано.
Есть другое существенное преимущество этого веб-интерфейса: при выдаче результата можно запросить дополнительную информацию об отобранных бластом последовательностях, например, систематическое положение организма, из которого она получена, функцию, дату создания записи или ID публикации. Это может быть очень полезно при анализе осмысленности результата работы бласта. Кроме этого, предоставляется удобная графическая визуализация каждого выравнивания (показано, какие участки последователньостей попали в локальное выравнивания и насколько они схожи). Это удобно при первичном отборе подходящих выравниваний. Сами выравнивания можно просмотреть, открыв их отдельно. В целом можно сказать, что в интерфейсе Uniprot больше инструментов для умозрительного отбора осмысленных выравниваний, в то время как в NCBI больше возможностей для изменения параметров поиска, которые в частных случаях могут быть очень важны. Возможно, последний был бы удобнее для построения каких-то математических моделей, для анализа общих тенденций или при рассмотрении случая, по каким-то причинам нуждающегося в альтернативных параметрах поиска. Uniprot в общем случае более удобен для нетребовательного к параметрам алгоритма поиска и для анализа осмысленности результата.