практикум №8

NCBI BLAST

Нуклеотидный BLAST


При выполнении прошлого практикума в качестве исследуемого организма я выбрала обыкновенного (он же европейский) ежа Erinaceus europaeus (common hedgehog).

1. Поиск в геноме Erinaceus europaeus гена, кодирующего δ-субъединицу АТФ-синтазы.

Примечание к заданию 1.1: в результате текстового поиска в файле с последовательностями белков (protein.faa, см. прошлый практикум) нашлось две записи, аннотированные как δ-субъединица АТФ-синтазы (митохондриальные) - XP_060037479.1 и XP_060037480.1, причем идентичные. Далее будет использоваться первая запись.
P.S. Внимательнее изучив аннотацию генома (genomic.gbff, см. прошлый практикум), мной было выявлено различие между данными записями. Данные аннотации были получены программой прогнозирования генов на основе HMM (Gnomon), разработанной в NCBI [1]. Вероятно, каждая CDS соответствует своему варианту транскрипта (см. рис.2 и описание). Различие кроется именно в аннотации вариантов транскрипта: вариант Х1 подтверждается сходством с 11 белками, вариант Х2 не имеет подтверждения, зато указан эксперементально подтвержденный сайт полиаденилирования ([ECO:0006239]). Однако, несмотря на различия в аннотации транскрипта, аминокислотная п-ть все равно одна и та же, и существенно на практикум эта информация не влияет.

Рис. 1
Рис. 1. Окрестность гена, кодирующего исследуемый белок, показанная в геномном браузере (Graphics).

Рис. 2
Рис. 2. Увеличенный левый край рис.1. В качестве п-ти с окрестностью взят участок 523,976-525,549.

Описание рис.1 и рис.2: Ген интереса находится через геномный браузер (по идентификатору белка) на участке 523,995-573,365 н., прямой цепи. Ген дельта субъеденицы домена F1 АТФ-синтазы (ATP5F1D) показан зеленым. Для данного гена существует два транскрипционных варианта - длинный и короткий, показаны фиолетовым. Соотвественно, есть две белок-кодирующие последовательности (CDS, показаны красным). Тонкими линиями обозначены интроны, стрелки на них указывают направление сплайсинга [2]. Как отмечалось выше, транслируемые белки идентичны, о чем также можно догадаться по аннотациям в геномном браузере.

2. Использование BLAST через веб-интерфейс для поиска гомологов по фрагменту ДНК.

«С древнейших времён дыхание и тепло тела считались главными проявлениями жизни» - Дэвид Кейлин, из книги "История клеточного дыхания и цитохрома". Важность АТФ-синтазы для живых организмов неоспорима. Это значимый с точки зрения выживания фермент, поэтому, вероятно, он должен сохранять консервативность среди таксонов. Подтвердить это может помочь поиск гомологов, то есть эволюционно родственных белков.

Erinaceus europaeus относится к Вторичноротым (Deuterostomia), достаточно удаленным от него семейством будет сем. Пчелы, относящееся к Первичноротым (Apoidea, Protostomia). С полной таксономией исследуемого ежа можно ознакомиться в NCBI Taxonomy.

Поиск гомологов BLAST проводился по последовательностям геномов Apoidea (taxid:34735), базе данных референсных геномов (refseq_genomes). BLAST использует для поска гомологов 29 референсных геномов, а поиск NCBI Datasets выдал 146 референсных геномов, включенных в RefSeq.

Существуют разные варианты алгоритма BLAST для поиска гомологов, которые различаются типом последовательности, подающейся на вход, т. е. референсом (нуклеотидная или аминокислотная), и последовательностям, среди которых ищется гомолог (нуклеотидные, аминокислотные, транслированные во всех рамках считывания нуклеотидные). В нашем случае проверяться будет консервативность гена с окрестностями и последовательность белка дельта субъеденицы АТФ-синтазы.

blastn\megablast

Поиск нуклеотид-нуклеотид для поиска гомологии между генами может проводиться двумя способами: blastn и megablast. Второй алгоритм производит быстрый поиск почти идентичных п-тей - аргументом для использования является скорость алгоритма. Однако организмы специально подбирались отдаленные, поэтому находок алгоритмом megablast не было (запуск при базовых параметрах). Запуск при различных параметрах blastn тоже не дал результатов (изменение word size с 11 на 7, изменение Expect threshold с 0,05 на 0,1), причем как среди Apoidea, так и Araneae (Пауки, 4 референсных генома). Могу предположить, что одной из причин такого результата является длина референсной п-ти (1574 н.). Я ожидала увидеть хоть что-то => алгоритм не справился с поиском.

tblastn\tblastx

Далее были предложены алгоритмы, использующие транслированные последовательности. Поскольку в последовательности белка я уверена больше, чем в последовательности гена этого белка, в данном задании поиск гомологов проводился алгоритмом tblastn, которому на вход дается известная аминокислотная последовательность, а поиск происходит по транслированным во всех рамках нуклеотидным п-тям. Среди сем. Пчелы было найдено 25 последовательностей, сходных с референсом (п-тью дельта суб. АТФ-синтазы, см. пункт 1). На найденные последовательности референс выравнивается только один раз, покрытие от 39%, выравнивания имеют низкий e-value и идентичность в большинстве случаев выше 50% (результаты поиска, параметры запуска). Примерно столько и ожидалось находок => алгоритм справился с поиском.

Таким образом, используя tblastn для поиска сходства между белковой референсной и псевдобелковой транслированной последовательностью можно сделать вывод о консервативности дельта субъеденицы АТФ-синтазы, ведь сходство нашлось между далекими организмами. А использование нуклеотидного BLAST не подходит для данной задачи: я предполагаю, что на это влияют мутации, замены или длина референса (п-ть гена с окрестностями) в сочетании с не самой простой организацей последовательности (длинный интрон в начале последовательности мешает поиску гомологии).

3. Поиск в геноме Erinaceus europaeus генов основных рибосомальных РНК по далекому гомологу.

Для выпонения данного задания мне пришлось установить локальный BLAST на личный компьютер (пакет BLAST+), поскольку файл с геномом Erinaceus europaeus (genomic.fna, см. прошлый практикум) много весит и превышает квоту сервера, его загрузка останавливается на 26%. Для меня это первый опыт установки программы, использование которой предполагает запуск через командную строку на винде, в связи с чем у меня возникли трудности при запуске команд, т.к. сначала установленная папка попала в файлы, требующие запуска от имени администратора, а командная строка ошибку доступа к файлу никак не отображала... Короче, было весело разбираться, почему оно не работает.

Анализ последовательности гена 16S является основным методом определения филогении прокариот [3]. Консервативность даннных последовательностей позволяет предполагать, что и среди далеких родственников (таких как Erinaceus europaeus) найдутся гомологи. У прокариот малая 30S рибосомная субъединица содержит 16S рибосомную РНК. Большая 50S рибосомная субъединица содержит два вида рРНК (5S и 23S рибосомные РНК). 16S рРНК распознает п-ть Шайно-Дальгарно на мРНК, что необходимо для инициации трансляции. 23S рРНК имеет пептидилтансферазную функцию, участвует в элонгации трансляции [4].

Итак, для поиска гомологов по геному необходимо его индексировать, то есть форматировать геном из формата fasta в базу данных BLAST. Для этого использовалась команда:

    makeblastdb -in genomic.fasta -dbtype nucl

Выдача содрежала несколько файлов. По индексированному геному исследуемого организма был проведен поиск гомологов бактериальных 16S рРНК и 23S рРНК E. coli. Для этого использовался алгоритм, проводящий поиск похожих нуклеотидных последовательностей по базе данных нуклеотидов - blastn:

    blastn -task blastn -query 16S_rRNA_ecoli.fa -db genomic.fasta -out hom_16srna -outfmt 7
    blastn -task blastn -query 23S_rRNA_ecoli.fa -db genomic.fasta -out hom_23srna -outfmt 7

-task алгоритм поиска, -query п-ть запроса, -db база данных для поиска, -out имя файла выдачи, -outfmt формат выдачи (7 - таблица с комментариями; также была использована команда без данного параметра - так получена текстовая выдача).

Результаты blastn для 16S рРНК в виде таблицы и текста, и для 23S рРНК в виде таблицы и текста.

Гомологи 16S рРНК. Было обнаружено 27 находок, 8 из них обозначены как обеспечивающие значительное выравнивание, выравниваний с рефенсом для каждой находки было несколько. (на 1, 5, 18 и X хромосомах, а также 4 на нелокализованных скаффолдах). Пользуясь тем же интерфейсом, что и в задании 1, удалось подтвердить наличие гомологов 16S рРНК на всех 4 нелокализованных скаффолдах. П-ть считалась гомологом, если была аннотиованна как 18S рРНК.

Гомологи 23S рРНК. Было обнаружено 66 находок, 15 из них обозначены как обеспечивающие значительное выравнивание, выравниваний с рефенсом для каждой находки было несколько. (на 1, 2, 3, 7, 9, 10, 12, 15, 17, 19 и X хромосомах, а также 4 на нелокализованных скаффолдах). Пользуясь тем же интерфейсом, что и в задании 1, удалось подтвердить наличие гомологов 23S рРНК на всех 4 нелокализованных скаффолдах. П-ть считалась гомологом, если была аннотиованна как 28S рРНК. Интересно, что скэффолд NW_026648248.1 представляет собой гексамерный повтор из генов 28S рРНК, 5,8 S рРНК и 18S рРНК, то есть пре-рРНК. Пре-рРНК также закодирована в оставшихся трех скэффолдах, но в сочетании с другими генами.

При поиске гомологов для разных бактериальных рРНК были найдены одни и те же скэффолды, на которых располагается общий транскрипт для гомологов этих рРНК. На собранных хромосомах участки, выравнявшиеся с запросом, не были аннотированы как рРНКовые.


Источники:

  1. Конвейер аннотаций генома эукариот NCBI.
  2. Условные обозначения графического представления.
  3. Discordant 16S and 23S rRNA Gene Phylogenies for the Genus Helicobacter: Implications for Phylogenetic Inference and Systematics..
  4. Рибосомальные РНК.