Нуклеотидный BLAST

Задание I. Разные варианты BLAST для участка ДНК

Выбранная мной последовательность представляет собой митохондриальный геном Vulpes vulpes.
Файл с выбранной последовательностью (NCBI Reference Sequence: NC_008434.1)

Рассмотрим участок из данной последовательности:

1. Координаты фрагмента в записи: 11780..16000
2. Длина фрагмента: 4220 п.о.
Рис. 1. Выбранный участок.
Рис. 1. Красным цветом обозначены CDS, фиолетовым tRNA, чёрным - D-loop.

Поиск BLAST

Vulpes vulpes относится к отряду Carnivora, класс Mammalia. Я решила выбрать другой отряд из класса Mammalia - Artiodactyla. Рассмотрим выдачи нескольких алгоритмов BLAST:

megablast - производит поиск очень похожих между собой нуклеотидных последовательностей в нуклеотидной базе данных. Количество находок: 41, Word size: 28, Max target sequences: 100.

blastn - как и megablast принимает на вход нуклеотидную последовательность и используется для поиска гомологичных ей в нуклеотидной базе данных, но blastn можно использовать для поиска гомологичных последовательностей среди не близкородственных видов. Количество находок: 100, Word size: 11, Max target sequences: 100.

blastx - на вход подаётся нуклеотидная последовательность, затем последовательность по заданной таблице транслируется, затем алгоритм проводит поиск в белковой базе данных. С помощью blastx можно узнать, какие аминокислотные замены встречаются в данном белке. Количество находок: 250, Word size: 5, Max target sequences: 250.

tblastx - производит по гену в транслированной нуклеотидной базе данных. Количество находок: не удалось найти последовательности, Word size: 3, Max target sequences: 100.

Задание II. Поиск в геноме эукариота генов основных рибосомальных РНК по далекому гомологу

Для выполнения этого задания на компьютер был установлен BLAST+

Поиск BLAST проводился по 16S рРНК и 23S рРНК.

16S рРНК - РНК, входящая в состав малой субъединицы прокариотической рибосомы (70S), 23S рРНК входит в состав большой субъединицы 70S рибосомы.

Создадим базу данных на основе Vulpes vulpes:

makeblastdb -in vulpes.fasta -dbtype nucl

Далее найдём гомологи 16S и 23S рРНК по индексированному геному, выбираем алгоритм blastn, потому что последовательности рРНК не транслируются. Локальный поиск для каждой рРНК:

blastn -task blastn -query vulpes/16S_rRNA.txt -db vulpes.fasta -out blast16.out -evalue 0.05

blastn -task blastn -query vulpes/23S_rRNA.txt -db vulpes.fasta -out blast23.out -evalue 0.05

Параметры blastn оставались по умолчанию: Word size = 11, E-value = 0.05. Для удобства анализа результатов был применён параметр -outfmt со значением 7:

blastn -task blastn -query vulpes/16S_rRNA.txt -db vulpes.fasta -out blast16.out -evalue 0.05 -outfmt 7

blastn -task blastn -query vulpes/23S_rRNA.txt -db vulpes.fasta -out blast23.out -evalue 0.05 -outfmt 7

Файлы: 16S рРНК и 23S рРНК

Результаты для 16S рРНК:

В выдаче оказалась 1 находка, которая находится в нелокализованном скэффолде (unplaced genomic scaffold).

Результаты для 23S рРНК:

В выдаче - 5 находок, все они также находятся в нелокализованных скэффолдах.