Нуклеотидный BLAST

Ген δ-субъединицы АТФ-синтазы

Среди белковых последовательностей Nematostella vectensis одна (XP_001632656) была идентифицирована как δ-субъединица АТФ-синтазы. Этот белок закодирован на участке NC_064034 первой хромосомы.

Локализация гена
Рисунок 1. Окрестность участка, содержащего ген δ-субъединицы АТФ-синтазы (NC_064034). Координаты гена, кодирующего белок, показаны в контексте соседних аннотированных элементов.

BLAST фрагмента ДНК

Nematostella vectensis (звездчатая актиния) относится к типу Стрекающие (Cnidaria). Для поиска отдалённых гомологов выбран таксон Apoidea (Пчёлы) – первичноротые, эволюционно удалённая группа; в RefSeq насчитывается 38 полностью секвенированных геномных сборок пчёл. В качестве запроса использована нуклеотидная последовательность гена δ-субъединицы АТФ-синтазы N. vectensis (XM_001632606.3). Поиск выполнен на NCBI BLAST с базой данных refseq_genomes, ограниченной таксоном Apoidea.

Для поиска отдалённых гомологов метод tblastx значительно эффективнее blastn, так как он опирается на аминокислотную консервативность.
blastn
Рисунок 2. Результаты поиска при помощи blastn. Видно лишь несколько коротких совпадений с низкой достоверностью.

При поиске с помощью tblastx обнаружено 152 хита на 38 геномных сборок, значительно длиннее, чем при использовании blastn. Качество также заметно выше. Это объясняется тем, что tblastx сравнивает последовательности на уровне белков, где консервативность выше.

tblastx
Рисунок 3. Результаты поиска при помощи tblastx. Обнаружено множество длинных и достоверных выравниваний.

Поиск генов рРНК по далекому гомологу

Далее нужно было найти в геномной сборке Nematostella vectensis гомологи двух рРНК E. coli — 16S и 23S. Сначала последовательности генома были проиндексированы на своем компьютере с помощью команды:

makeblastdb -in GCF_932526225.1_jaNemVect1.1_genomic.fna -dbtype nucl -out Nematostella

Получив локальную базу данных, был проведен поиск с использованием алгоритма blastn для 16S и 23S рРНК. Для повышения чувствительности использовался параметр -word_size 7.Команды:

blastn -query e.coli_16S.txt -db Nematostella -word_size 7 -outfmt 7 -out 16S.txt
blastn -query e.coli_23S.txt -db Nematostella -word_size 7 -outfmt 7 -out 23S.txt

Результаты для 16S рРНК(16S.txt):: обнаружено 383 хита в 10 гомологах

Результаты для 23S рРНК(23S.txt): обнаружено 372 хита в 15 гомологах

tblastx
Рисунок 4.Рисунок для 23S.

Карты локального сходства двух геномов

Для построения карт локального сходства были выбраны два полностью секвенированных генома бактерий рода Mycoplasmoides: Mycoplasmoides pneumoniae (NZ_CP010546.1) и Mycoplasmoides genitalium (NZ_CP159789.1). Эти организмы являются близкими родственниками, но имеют существенные различия в размере генома и наборе генов. Карты построены на сайте NCBI BLAST с помощью инструмента «Align two sequences».

megablast
Рисунок 5. Карта, построенная megablast.
blastn
Рисунок 6. Карта, построенная blastn(word_size 11).

Основные геномные перестройки, выявленные на карте blastn:

tblastx
Рисунок 7. Карта, построенная tblastx (сравнение на уровне аминокислот). Это наиболее полная картина: диагонали становятся непрерывными даже в участках с низкой нуклеотидной идентичностью, так как белковые домены сохраняются.

В карте blastn наблюдаются две основные перестройки: делеция в районе 600 т.п.н. (разрыв диагонали, указывающий на утрату этого участка у M. pneumoniae) и транслокация в районе 250-350 т.п.н.