Online BLAST

Поиск организма по фрагменту нуклеотидной последовательности

Запустим blastn с алгоритмом megablast, используя в качестве входных данных заданный 300-нуклеотидный фрагмент. В выдаче программы содержится одна находка - Methanocella paludicola SANAE chromosome, complete genome. Организм - Methanocella paludicola SANAE (домен археи), АС находки – NC_013665.1, координаты фрагмента в записи – 1145-1444. Фрагмент кодирует гомолог белка контроля клеточного деления 6.

Поиск гомолога белка человека в слоне

Для работы мной был выбран белок ODC1 (орнитин декарбоксилаза), и получена его последовательность (файл по этой ссылке). На запрос на сайте ENA по этой последовательности в геноме африканского слона лучшая находка - SuperContig scaffold_20: 20,110,966-20,115,282, с длиной выравнивания 461 , E-value 1E-255 и идентичностью 94%. В последовательности содержится 9 интронов. Можно сказать, что гомолог достаточно близкий, что объясняется принадлежностью организмов к одному классу.

Поиск некодирующих последовательностей программой BLAST

Для заданной бактерии (Serratia proteamaculans) выберем какую-нибудь некодирующую последовательность РНК. Для этого откроем через SRS запись о полном геноме бактерии, найдёт там участок, кодирующий тРНК. Пусть это будет тРНК, связывающаяся с пролином. По её координатам вырезаем участок из последовательности генома, сохраняем в отдельный файл. Теперь проведём BLAST этой последовательности по банку RefSeq Genomic только для последовательностей бактерий порядка Enterobacteriales, к котрому принадлежит Serretia proteamaculans, с помощью различных организмов. Результаты представлены в таблице 1.

Таблица 1.

Алгоритм E-value лучшей находки Число находок
megablast 2e-32 >1000
blastn (параметры по умолчанию) 2e-31 >1000
blastn (длина слова = 7, match/mismatch = 1/-1) 2e-26 >1000

Во всёх трёх поисках лучшие находки относятся к семейству Enterobacteriaceae. Вероятно, такие результаты поиска связаны с большим числом изученных видов этого семейства.