Онлайн BLAST

Поиск организма по фрагменту нуклеотидной последовательности

Для заданного 300-нуклеотидного фрагмента ДНК был запущен алгоритм megablast, использовался онлайн вариант BLAST на сайте NCBI. Megablast используется, если нужно найти последовательность, идентичную исходной или же очень на неё похожую.

Результат: фрагмент принадлежит Archaeoglobus fulgidus - архею экстремофилу. Он соответствует основаниям 1145-1444 в последовательности его полного генома (AC_RefSeq: NC_000917). Данный участок является некодирующим, расположен между двумя предсказанными генами AF_001 и AF_002.

Поиск гомолога белка человека в слоне

В качестве примера гена была выбрана последовательность одной из субъединиц тубулина (sw: TBA3E_HUMAN). С помощью команды seqret sw:titin_human -auto получена его последовательность: ССЫЛКА. Затем был проведён поиск области генома слона (Loxodonta africana), гомологичной полученной белковой последовательности.

Результат для лучшей находки: identity 98%, e-value 1E-260, длина выравнивания - 450 (по аминокислотной последовательности), координаты гена слона в геноме 270722-277837, длина 7116 пар оснований, он включает в себя три интрона.

Поиск некодирующих последовательностей программой BLAST

Для уже знакомой мне по первому семестру бактерии Halothiobacillus neapolitanus была получена последовательность аргининовой тРНК, которая закодирована в геноме (NC_013422.1) по координатам 1,069,645-1,069,721.
Затем проведём поиск гомологов этой последовательности среди всех бактерий того же порядка, что и Halothiobacillus neapolitanus. Порядок определяем с помощью NCBI-Taxonomy, это Chromatiales. Такой поиск будем проводить с использованием трёх различных вариантов BLAST. Результаты представлены в таблице 1.

Таблица 1. Сравнение результатов поиска с различными исходными параметрами
Параметр сравнения Megablast Blastn с параметрами по умолчанию Blastn с длиной "слова" 7, match/mismatch = 1/-1
Количество результатов 8 14 432
Количество результатов с e-value <0,001 8 14 15
Типы найденных записей Все записи - полные геномы различных бактерий Все записи - полные геномы различных бактерий Кроме полных геномов много записей, содержащих отдельные гены, многие относятся к бактериям, определённым до порядка (Uncultured Chromatiales bacterium clone)

Вывод: в рамках данной задачи наиболее разумно использовать blastn с параметрами по умолчанию, так как он идёт не сильно дольше чем megablast, но при этом охватывает записи полных геномов для большего числа бактерий из Chromatiales. Поиск же гомологов такой некодирующей белок последовательности с более слабыми ограничениями даёт очень много результатов, но при этом большинство из них имеют высокие показатели e-value и явно получены по случайному совпадению нуклеотидных последовательностей.

Сравнение программ BLASTN и MegaBLAST

Теперь более внимательно проанализируем списки бактерий, записи полных геномов мы получили в третьем задании при поиске алгоритмами megablast и blastn. В результатах поиска megablast обнаружено 8 видов бактерий, относящихся к 5-ти различным родам из 3-х семейств порядка Chromatiales. В результатах поиска blastn мы находим 14 видов бактерий, относящихся к 9-ти различным родам из 3-х семейств порядка Chromatiales. Всего же в порядке насчитывается пять семейств бактерий. Таким образом, на основании сказанного, нельзя совершенно точно сказать, что megablast ищет только близких гомологов, а blastn "расширяет" поиск на соседние таксономические группы.

Теперь подойдём к сравнению алгоритмов несколько иначе: рассмотрим длины выравниваний, полученных в двух случаях. Для всех находок и там, и там получаем параметр query cover 100%, что свидетельствует о длине выравнивания равной 77. единственное исключение - Nitrosococcus watsoni, для которого длина выравнивания megablast 75 нуклеотидов, a blastn - 77 (100%). Причина тому - использование алгоритмом megablast более длинного "слова" - длиной в 28 нуклеотидов.

Дата последнего обновления: 23.11.2013
© Dmitry Travin, 2013