Учебный сайт Екатерины Швецовой

Online BLAST

Поиск организма по фрагменту нуклеотидной последовательности

Для определения бактерии, из генома которой был взят заданный фрагмент, использована программа megablast. На сайте NCBI выбран нуклеотидный blast (blastn), при запуске указан алгоритм "megablast" (он стоит по умолчанию). В качестве банка выбран "refseq_genomic". Поиск ограничен бактериями и археями. В разделе Filters and Masking снята галочка с параметра Low complexity regions.

В результате найдено 2 последовательности, одна из которых полностью совпадает с заданной (идентичность 100%). Эта последовательность соответствует записи NC_000916.1 и принадлежит архее Methanothermobacter thermautotrophicus str. Delta H.

Поиск гомолога белка человека в слоне

С помощью команды EMBOSS "infoseq sw:sh*_human -only -name -desc -out human_prot_list.txt" был получен список всех белков человека, идентификатор в Swiss-Prot которых начинается с "sh". Для дальнейшей работы выбран белок с идентификатором SHLB1_HUMAN. Файл shlb1_human.fasta с последовательностью белка получен с помощью команды "sw:SHLB1_human -auto". На сайте ENA проведён поиск гомолога белка SHLB1_HUMAN в геноме африканского слона. Для этого был выбран чекбокс "spliced translated nucleotide search" (позволяет искать не отдельные экзоны, а белок полностью) и в графе "Collection" выбран "Loxodonta_africana".

Найдено 4 последовательности. E-value лучшей находки: 5E-195; длина полученного выравнивания: 365; identity полученного выравнивания: 94%. Координаты найденного гена в геноме слона: 3581749<-3537311. В данном гене слона восемь интронов.

Поиск некодирующих последовательностей программой BLAST

Для последовательности тРНК бактерии Azotobacter vinelandii DJ выполнен поиск гомологичных последовательностей внутри порядка Pseudomonadales.

Чтобы узнать, к какому порядку относится ваша бактерия, в поле для поиска на сайте NCBI введено ее родовое название (Azotobacter) и указана база данных – "taxonomy". На найденной странице при наведении курсора мыши на названия вышестоящих таксонов появляются ранги этих таксонов (порядок = "order").

С FTP-сервера NCBI скачан файл NC_012560.frn, содержащий последовательности аннотированных РНК бактерии Azotobacter vinelandii DJ. Из этого файла вырезана последовательность сериновой тРНК (координаты в геноме 2505285-2505371) и сохранена в файле Avin_60250.fasta.

Поиск гомологов этой тРНК внутри порядка Pseudomonadales в банке данных refseq_genomic произведен тремя способами:

  • С использованием алгоритма megablast: найдено 264 последовательности, у всех находок e-value < 0,001 (самое большое значение e-value - 2e-13).
  • С использованием алгоритма blastn (параметры по умолчанию): всего найдено 2376 последовательностей, 2332 из них имеют e-value < 0,001.
  • С использованием алгоритма blastn (максимально чувствительные параметры из доступных: длина слова = 7, match/mismatch = 1/-1): всего найдено 2540 последовательностей, 2330 из них имеют e-value < 0,001.

Можно сделать вывод, что megablast - более строгий алгоритм поиска гомологов, чем blastn, т. к. с помощью него получено значительно меньше находок. Как и ожидалось, при запуске blastn с более чувствительными параметрами найдено больше потенциальных гомологов, чем при запуске blastn с параметрами по умолчанию, однако, находок с e-value < 0,001 на 2 меньше (на фоне общего количества находок это различие можно считать незначительным). Близкие значения для количества "хороших" (с e-value < 0,001) находок blastn с разными параметрами доворит о том, что увеличение чувствительности параметров запуска приводит увеличению количества "плохих" (менее достоверных) находок.

© Shvetsova Ekaterina, FBB MSU, 2013
Дата последнего изменения: 07.12.2016