1. Характеристики списка находок

Общее количество находок Количество находок с E-value < 0.001 Максимальное E-value
13 8 4,6

Список находок лимитирован порогом на E-value.

2. Изменение длины слова

Общее количество находок Количество находок с E-value < 0.001 Максимальное E-value
40 18 8,5

3. Изменение объёма поиска

Был проведён поиск внутри таксона Proteobacteria. E-value одной из находок (белок принадлежит Vibrio vulnificus CMCP6 , AC = Q8DEM7) по сравнению с предыдущим поиском (по всему банку) уменьшился с 6e-10 до 2e-10. Из формулы Карлина получаем, что размер всего банка в 3 раза больше, чем размер той его части, что относится к таксону Proteobacteria. Зная, что размер Swiss-Prot составляет 557275 последовательностей, и грубо пренебрегая разницей в их длине, получаем, что на Proteobacteria приходится около 185 тыс. последовательностей. Настоящее число последовательностей Proteobacteria в Swiss-Prot - примерно 198 тыс.

Score при изменении объёма поиска меняться не должен (и не меняется), так как он зависит только от качества выравнивания двух данных последовательностей, а также от используемой матрицы аминокислотных замен и никак не учитывает размеры банка, из которого эти последовательности взяты.

4. Другие веб-интерфейсы BLASTP

Сайт Uniprot: наиболее минималистичный интерфейс, меньше всего баз данных для поиска, по умолчанию не фильтруются low complexity regions, нельзя выбрать штраф за гэп и за его расширение, зато после выравнивания наглядно показывает хорошо выравнивающиеся участки.

Сайт Европейского биоинформатического института: большой выбор баз данных (в том числе, в Other Databases, есть те, которых нет в других интерфейсах), можно выбрать несколько баз данных сразу, маленькое максимальное число находок по умолчанию (50), большой выбор форматов вывода, в окне результата есть вкладка Functional predictions, где показаны предположительно гомологичные участки и рядом есть название выровненного белка, из котрого понятно, что он делает, а также есть возможность сортировки по Protein features.

Можно отметить, что ни на сайте Uniprot, ни на сайте Европейского биоинформатического института программа не понимает идентификаторы и требует введения последовательности белка. Также в обеих этих программах невозможен ввод таксона с клавиатуры (нужно выбирать из предложенных), нет возможности менять длину слова, зато настраивать базы данных для поиска можно более прицельно (возможность выбора внутри системы Uniprot).

На мой взгляд, из вышесказанного можно заключить, что на начальных этапах выполнения научной задачи, когда, возможно, не очень понятно, что и где искать, следует пользоваться интерфейсом на сайте NCBI. Другие интерфейсы подходят для более узкого поиска. Например, сайт Европейского биоинформатического института, как мне кажется, предлагает удобный интерфейс для поиска фунционально значимых участков.

5. Плохая матрица (перезагрузка)

При использовании матрицы PAM250 (Existence:14, extension:2, длина слова - 2) были получены следующие результаты:

- находок на одну меньше, чем при использовании матрицы BLOSUM62

- не все из оставшихся совпадают (14 находок различны, однако все они имеют E-value > 0,001)

- в 17 находках использование BLOSUM62 даёт меньшее E-value, 10 из них - хорошие (E-value изначально меньше 0,001)

Таким образом, утверждение о том, что PAM250 - плохая матрица, по-видимому, справедливо (найден всего 1 случай, когда E-value, посчитанное при использования BLOSUM62, равно 0,001, а другим способом - меньше 0,001).


© Быкова Даша, 2018