Все находки | Находки с E-value < 0.001 | max E-value | Лимит списка находок |
100 | 100 | 1e-30 | Максимальное число находок |
А теперь увеличила максимальное число находок до 500:
Все находки | Находки с E-value < 0.001 | max E-value | Лимит списка находок |
276 | 265 | 0.88 | Порог на E-value |
Результаты поиска при длине слова 2 и максимальном числе находок 500:
Все находки | Находки с E-value < 0.001 | max E-value |
319 | 295 | 6.7 |
Выбрала находку с минимальным ненулевым E-value 7e-169 и весом 475 бит. Потом повторила поиск, ограничив его таксоном Firmicutes, и E-value изменилась до 7e-170. То есть, если N - размер всей базы данных (суммарная длина всех последовательностей), а n - суммарная длина всех последовательностей из таксона Firmicutes, то N = 10n. N ~ 198311666, средняя длина последовательностей в UniProtKB / Swiss-Prot ~ 358 аминокислот (числа отсюда) , поэтому примерное число последовательностей из таксона Firmicutes равно 55394. На сайте Uniprot указано, что 68654 последовательности из Firmicutes относятся к Swiss-Prot. Расчеты очень примерные, но порядок совпал. При вычислении веса (обычного или в битах) размер базы данных никак не фигурирует, так что из-за изменения объема поиска вес измениться не может.
4. Другие веб-интерфейсы BLASTP.Можно открыть результат поиска в новом окне, быстро работает, на вход принимает только последовательность либо идентификаторы Uniprot. Доступна база данных UniprotKB, прямо в базе данных можно ограничить поиск таксоном или кластером похожих белков.
Медленнее, принимает на вход последовательность или разные идентификаторы, можно загрузить файл. Показывает все выравнивания прямо на странице с результатами. В параметрах можно указать длину слова для поиска, установить лимит на число совпадений с query последовательностью. Можно установить штрафы за начало и продолжение гэпов. Доступны максимально разнообразные базы данных, в том числе Non-redundant protein sequences (nr).
Есть графа Functional predictions, где показана доменная структура каждой находки (в BLAST тоже такое есть, но не для каждой находки) (рисунок 1).
Рисунок 1. Доменная структура находки.
Во всех трех интерфейсах есть борьба с регионами низкой сложности, можно поменять матрицу аминокислотных замен, порог E-value, порог числа находок, есть графическое представление выравниваний (рисунки 2, 3, 4):
Рисунок 2. В Uniprot:
Рисунок 3. В BLAST:
Рисунок 4. В EMBL - EBI:
Таким образом, если нужно очень быстро пробластовать без особых параметров, то лучше использовать Uniprot BLAST; если, например, интересно посмотреть доменную организацию каждой находки или провести поиск в какой-то специальной базе даннных по белкам (например, в базе по полиморфизмам антител клеток-киллеров), то удобнее EMBL-EBI BLAST, а если мы не хотим упустить максимальное число находок, пусть даже плохо аннотированных и хотим видеть выравнивания со всеми характеристиками сразу на странице с результатом, то используем просто BLAST.
5. Плохая матрица.При использовании матрицы BLOSUM62 программа выдает 276 находок, а при PAM250 - 179 находок. На рисунках показаны находки с наилучшими E-value:
Рисунок 5. С BLOSUM62: |
Рисунок 6. С PAM250: |
© Belousova Evgenia, 2018