Практикум 8

Поиск гена дельта-субъединицы АТФ-синтазы

В таблице белковых последовательностей для сборки генома головастой морской черепахи (лат. Caretta caretta) была найдена одна запись, соответствующая δ-субъединице АТФ-синтазы (id:XP_048687017.1). Далее был найден идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок (NC_134230)

Файл с последовательностью кодирующей белок части.

Рис. 1 Окрестность гена ATP5F1D. Координаты кодирующей его части: 15494233, 15500774.

Разные варианты BLAST для фрагмента ДНК

Выбранный ранее организм вторичноротый, поэтому для этого задания возьмем кого-то из первичноротых. Было выбрано семейство пчёл (Apoidea).

Blastn более чувствителен для поиска дивергировавших нуклеотидных последовательностей по сравнению с megablast, поэтому будем использовать его. Со стандартными параметрами выдавало 0 находок,поэтому попробуем изменить параметры. Найдем все возможные совпадения, даже если они скорее всего случайные - просто посмотрим, есть ли хоть что-то. В итоге, даже при либеральных настройках (E-value=10, word size = 7) blastn нашел только 2 потенциальных гомолога с очень низкой идентичностью (40-50% и <40%).

Рис. 2 Графический результат поиска blastn в таксоне Apoide.

В то же время tblastn обнаружил 48 высоконадежных гомологов с типичной для консервативных белков идентичностью 60-80% и стандартными параметрами (word size = 5).

Рис. 3 Графический результат поиска tblastn в таксоне Apoide.

Поиск в геноме эукариота гены основных рибосомальных РНК по далекому гомологу

Индексируем геном

makeblastdb -in /Users/kseniagapon/Desktop/GCF_965140235.1_rCarCar1.hap1_genomic.fna -dbtype nucl -out carreta_genome

Программа makeblastdb принимает файл с последовательностями в fasta-формате (параметр "-in") и создаёт локальную базу данных. Параметр "-dbtype" указывает на тип последовательности – в случае нуклеотидной последовательности нужно указать "-dbtype nucl".

Для поиска гомологов бактериальных рРНК в геноме эукариота был выбран алгоритм blastn, поскольку алгоритмы, работающие на уровне аминокислот (tblastn/tblastx), неприменимы для поиска рибосомальных РНК, а megablast оптимизирован для поиска высокоподобных последовательностей. В файлы 16s_rrna.fasta и 23s_rrna.fasta были записаны последовательности, соответственно, 16S и 23S рРНК E. coli.

Команды для поиска:

blastn -task blastn -query /Users/kseniagapon/Desktop/23s_rrna.fasta -db carreta_genome -out /Users/kseniagapon/Desktop/blast_23s_results.txt -outfmt 7
blastn -task blastn -query /Users/kseniagapon/Desktop/16s_rrna.fasta -db carreta_genome -out /Users/kseniagapon/Desktop/blast_16s_results.txt -outfmt 7

-task: алгоритм, который используется при поиске.

-query: имя файла с последовательностью запроса

-db: имя базы данных

-outfmt: формат выходного файла. Значение по умолчанию — 0. Популярно также значение 7 — таблица с комментариями

Файл с результатами BLAST для 16s рРНК.

Файл с результатами BLAST для 23s рРНК.

При выравнивании 16S рРНК E. coli было обнаружено 20 совпадений. Наиболее значимые из них в последовательности (NC_134233.1) с e-value 7.17e-05.

При выравнивании 23S рРНК E. coli было обнаружено 74 совпадения. Лучший E-value: 4.45e-17.

Рис 4. Выравнивание консервативного участка 16S рРНК (позиции 1494-1536) c геномом черепахи. Показан репрезентативный пример (координаты 7688883-7688925). Всего обнаружено 7 копий данного участка в геноме NC_134233.1 с идентичными параметрами выравнивания.

Построение карт локального сходства

Было выбрано две последовательности геномов Mycoplasma leachii и Mycoplasma mycoides

Рис. 5 Карта megablast.

Карта выделяет крупные, высококонсервативные области нуклеотидного сходства между двумя геномами. Самая длинная диагональная линия указывает на основной синтенный (упорядоченно консервативный) регион. Разрыв и смещение основной диагонали указывают на инверсию.

Рис. 6 Карта Blastn.

Отображает больше точек и более коротких линий, чем megablast, что указывает на большее количество локальных сходств, возможно, включая регионы с более низкой общей идентичностью последовательностей.

Подобно megablast, подтверждает основные области синтенности и перестройки. Увеличенная плотность совпадений по сравнению с megablast предполагает, что стандартный BLASTN обнаруживает больше гомологичных областей, включая те, которые короче или немного менее консервативны, чем найденные megablast.

Рис. 7 Карта tblastx.

Для TBLASTX использовались фрагменты первых 600000 п.н. каждого генома

tblastx (сравнивает все шесть возможных трансляций нуклеотидной последовательности запроса со всеми шестью возможными трансляциями нуклеотидной последовательности субъекта). Этот инструмент обнаруживает сходство на уровне аминокислот, даже если лежащие в основе ДНК-последовательности разошлись из-за синонимичных мутаций.