Учебный сайт Сергея Пушкарева

Навигация по сайту:

Практикум 11. Работа в BLAST

1. Характеристики списка находок

Был выполнен поиск BLASTP для белка ALV08439.1. Всего было обнаружено 2 находки: одна с E-value меньше одной тысячной (5×10-54), другая намного хуже (E-value = 9.1, оно же по совместительству максимальное). Список находок, очевидно, оказался лимитирован порогом на E-value. Для порога на E-value = 1000 число находок составило 39.

2. Изменение длины слова

При изменении длины слова с 6 до 2 количество находок увеличилось до 36. С E-value меньше одной тысячной 23 находки. Максимальное E-value = 9.1. 26 из найденных белков имеют E-value меньше 1 (Максимальное E-value = 0.013). Для первой находки Score составляет от 180 (она нашлась при предыдущем поиске), для остальных Score лежит в пределах от 77.8 до 40.0. Функционально все эти находки участвуют в транспорте веществ через мембрану, связывая транспортируемое вещество, все имеют ABC-transporter periplasmic binding домен. Средний coverage для 25 последних находок c E-value меньше единицы, посчитанный с помощью MS Excel, составил 69%. Из этого можно сделать вывод, что эти белки скорее всего гомологичны.

3. Изменение объема поиска

Поиск, проведенный с теми же параметрами, что и в предыдущем задании, по таксону "Proteobacteria" дал 30 результатов. Следовательно, в выдаче предыдущего задания были белки из организмов, не принадлежащих Proteobacteria. В задании 2 зафиксировали выдачу для белка Q8X8Z0.1. Сравнение характеристик выравниваний прошлой и текущей выдач BLASTP приведено в таблице ниже.

Характеристики выравнивания белков ALV08439.1 и Q8X8Z0.1 в выдаче BLASTP заданий 2 и 3.
Номер задания Используемый банк E-value Score Score(bits)
2. UniProtKB/Swiss-Prot 3×10-7 128 53.9
3. UniProtKB/Swiss-Prot, только Proteobacteria 9×10-8 128 53.9

Из таблицы нетрудно заметить, что Score(и обычный, и в битах) выравниваний не меняется, так как он не зависит от размера банка. Напротив, E-value для двух выдач отличается. Из лекций мы узнали, что E-value прямо пропорционально размеру банка. Выполняя поиск по таксону, мы ищем только по части банка (в обоих случаях это UniProtKB/Swiss-Prot), следовательно, количество последовательностей, по которым мы ищем выравнивание уменьшается, соответственно уменьшается и E-value. Поэтому находка из упражнения 3 имеет более низкий E-value по сравнению с находкой из упражениния 2.

Формула для подсчета E-value. Здесь E — E-value, m — размер банка, n — длина запроса(ALV08439.1), K и λ — константы соответствующие используемой матрице аминокислотных замен и штрафам за гэпы.

Поскольку все данные из формулы для расчета E-value, кроме m, константны для двух выдач, легко посчитать, во сколько раз банк из упражнения 2 больше банка из упражнения 3: в 3.33 раза. Попробуем оценить количество записей Swiss-Prot таксона Proteobacteria. На момент написания(29.04.18), по данным на заглавной странице UniProt, количество белков в Swiss-Prot составляет 557275. Предположим, что все белки в банке имеют одинаковую длину(чего, конечно, не может быть). Поделив число всех белков на 3.33 получим оценку в 167349 белков. В самом UniProt по запросу "taxonomy:proteobacteria AND reviewed:yes" находится 197944 записей. Неплохо, если учесть грубость нашей оценки. Также можно сделать вывод, что в Swiss-Prot для Proteobacteria содержатся преимущественно белки, имеющие длину меньше средней по банку.

4. Другие веб-интерфейсы BLASTP

Интерфейс UniProt очень прост и имеет ссылку на видео как им пользоваться(Demo), а также всплывающие подсказки при нажатии на название параметров поиска. При поиске можно указать следующие параметры:

  • Используемая база данных. Имеется удобные опции для поиска по крупным таксонам UniProt. Дополнительно можно искать по кластерам UniRef белка и в UniParc.
  • Пороговое E-value.
  • Матрицу аминокислотных замен. Штрафы за гэпы поставить нельзя.
  • Фильтр на low complexity регионы.
  • Наличие гэпов в выдаче.
  • Размер выдачи.

BLAST на сайте европейского биоинформатического института имеет более сложный и гибкий интерфейс. Помимо всех возможностей интерфейса UniProt, имеется больше баз данных, можно искать по патентам. Дополнительные параметры напоминают BLASTP в NCBI, но нельзя, к примеру, выбрать длину слова. Есть возможность получить уведомление по почте о завершении поиска BLAST. Входной формат обязательно требует ввести последовательность запроса, что может быть не очень удобно. Формат вывода имеет много полезных представлений, например, графическое(Visual Output), показывающее какие участки белков выравнялись. Основной формат вывода — это Summary table. Для каждого найденного белка есть возможность сразу узнать о нем больше с помощью (Cross-references and related information). Для множественного выравнивания выделенных белков можно сразу запустить какую-нибудь программу из Tools, что очень удобно. Во вкладке "Functional predictions" собирается информация о доменах найденных белков, можно сразу посмотреть их доменную структуру. Все картинки можно скачать в формате svg. Из-за большого количества полезной информации, собранной в одном месте, BLASTP на сайте европейского биоинформатического института дает больше пищи для размышлений при исследовании гомологии белка. Это хорошая отправная точка, однако требуется уточнить, как именно он формирует свою выдачу(для ALV08439.1 выдачи интерфейсов NCBI И EBI отличаются количеством белков).

5. Плохая матрица

Запустив BLASTP в NCBI с банком Swiss-Prot, длиной слова 2 и матрицей PAM250 для ALV08439.1 получили 29 находок. (Для матрицы BLOSUM62 при аналогичных параметрах в выдаче было 36 белков. см упражение 2.) Действительно, E-value находок уменьшается. Например, для нашего фиксированного Q8X8Z0.1 E-value с PAM250 0.006 (с BLOSUM62 было 3×10-7). Таким образом, предложенная гипотеза оказалась верна.

© Пушкарев Сергей, 2018