Нуклеотидный BLAST

Ген δ-субъединицы АТФ-синтазы

Среди белковых последовательностей Sphaeroforma arctica была найдена одна (XP_014147786.1), аннотированная как δ-субъединицы АТФ-синтазы.

Данной аминокислотной последовательности соотвествует нуклеотидная последовательность с идентификатором NW_014037128.1, расположенная на скаффолде №3430 (NW_014037128). Из данного скаффолда был вырезан участок, содержащий рассматриваемый ген.

ATP-synthase delta subunit gene
Рисунок 1. Изображение окрестности участка содержащего предполагаемый ген δ-субъединицы АТФ-синтазы (NW_014037128.1, обведен красной рамкой) в соотвествующем скаффолде (NW_014037128). Координаты гена, кодирующего данную субъединицу: 240-833.

Далее был осуществлен поиск гомологичных последовательностей при помощи различных вариантов BLAST. Для поиска было выбрано семейство членистоногих Apoidea (пчелы), для данного семейства имеется достаточно большое количество (38) аннотированных геномных сборок в RefSeq.

Сначала был проведен поиск при помощи blastn с длиной слова 7. При пороге e-value по умолчанию (0.05) не было найдено ни одной значимой находки. При повышении порога до 2, были найдены два совпадения (Рис. 2), которые однако, вряд ли имеют биологический смысл, поскольку эти находки выравниваются на некодирующие участки запроса.

blastn results
Рисунок 2. Результаты поиска при помощи blastn с длиной слова 7 и порогом e-value 2 по геномам представителей семейства Apoidea из базы данных refseq_genomes (38 сборок). Красными вертикальными прямыми обозначены границы двух экзонов в запросе (ген δ-субъединицы АТФ-синтазы Sphaeroforma arctica).

Далее, в связи с непригодностью blastn потенциально гомологичных последовательностей в данном случае, для поиска был использован tblastx c настройками по умолчанию по той же базе данных, на странице в NCBI Taxonomy для Sphaeroforma arctica указана стандартная таблица генетического кода, она и использовалась для трансляции при поиске. Результаты приведены на Рисунке 3. Всего было найдено 45 хитов для всех 38 геномов семейства Apoidea из refseq_genomes. Часть находок выровнялась только на один экзон запроса, другая — на оба.

tblastx results
Рисунок 3. Результаты поиска при помощи tblastx с параметрами по умолчанию по геномам представителей семейства Apoidea из базы данных refseq_genomes (38 сборок). Красными вертикальными прямыми обозначены границы двух экзонов в запросе (ген δ-субъединицы АТФ-синтазы Sphaeroforma arctica).

Что интересно, для некоторых находок было указано, что в выравнивании с запросом участвует последовательность субъединицы O АТФ-синтазы (Рис. 4). Субъединица O (или OSCP — oligomycin-sensitivity conferring protein) и δ-субъединица являются обозначениями для одного и того же митохондриального белка, являющегося частью статора в АТФ-синтазе.

tblastx alignment
Рисунок 4. Верхний рисунок - для некоторых находок указано, что был найден ген субъединицы O АТФ-синтазы (выделено красной рамкой). Нижний рисунок — обозначены границы частей последовательности Bombus fervidus (NC_091523.1), с которыми было построено выравнивание двух экзонов запроса (пронумерованы экзоны гена из Sphaeroforma arctica в порядке от 5' конца к 3' концу).

Также стоит отметить, что те участки генов субъединицы O из находок, которые выровнялись на оба экзона запроса, в собственном геноме не разделены интроном (и даже иногда немного перекрываются, см. Рис. 4) и находятся в последнем четвертом экзоне гена субъединицы O АТФ-синтазы. Можно предположить, что в скаффолд из сборки Sphaeroforma arctica, содержащий ген δ-субъединицы, попал не весь этот ген, а лишь его 3'-концевая часть, из-за чего предполагаемый ген δ-субъединицы АТФ-синтазы Sphaeroforma arctica соотвествует лишь последнему из четырех экзонов гомологичных генов других организмов.

Можно предположить, что среди скаффолдов сборки можно найти содержащий 5'-концевую часть гена δ-субъединицы. Для этого была скачана последовательность гена субъединицы O Bombus fervidus. Для данной последовательности при помощи локального tblastx был проведен поиск по базе данных, полученной из последоватеельностей скаффолдов геномной сборки Sphaeroforma arctica:

makeblastdb -in Genome_S_arctica.fna -dbtype nucl -out S_arc_db/S_arctica

tblastx -query ATP_delta_complete.txt -db S_arc_db\S_arctica -outfmt 7 -out found.txt

Среди результатов поиска с достаточно низким e-value имелись 2 найденных ранее хита со скаффолдом NW_014037128.1, а также еще один хит с другим скаффолдом — NW_014036311.1 (Рис. 5).

local tblastx results
Рисунок 5. Результаты локального tblastx для последовательности субъединицы O АТФ-синтазы Bombus fervidus по базе данных, полученной из скаффолдов Sphaeroforma arctica. Зеленой рамкой выделены хиты, найденные ранее, красной — новый.

Из найденного скаффолда был вырезан участок, выровненный на запрос, с окрестностью и произведен поиск при помощи tblastx по базе данных refseq_genomes и таксону Apoidea. В результате потенциальные гомологи были найдены во всех 38 сборках базы (Рис. 6).

tblastx results
Рисунок 6. Результаты поиска найденного участка скаффолда при помощи tblastx по базе данных refseq_genomes и таксону Apoidea.

Сопоставленные локальным tblastx участки скаффолда Sphaeroforma arctica и хромосомы Bombus fervidus были визуализированы в NCBI Genome Data Viewer (Рис. 7). Как можно видеть, выровнялись участки содержащие третий экзон гена субъединицы O со стороны Bombus fervidus и ген некоторого неохарактеризованного белка (XP_014147169.1) со стороны Sphaeroforma arctica.

Scaffolds and chromosome
Рисунок 7. Расположение сопоставленных участков скаффолда Sphaeroforma arctica (верхний рисунок) и хромосомы Bombus fervidus (средний рисунок). На нижнем рисунке также показано выравнивание данных двух участков.

Последовательность найденного неохарактеризованного белка Sphaeroforma arctica получена из той же рамки считывания, что и выровненный с экзоном субъединицы O Bombus fervidus участок. Наконец, для данной белковой последовательности был проведен поиск при помощи blastp по базе данных refseq_select_prot (Рис. 8).

blastp results
Рисунок 8. Результаты поиска при помощи blastp по базе данных refseq_select_prot. Отдельно показана информация об обнаруженном белковом домене.

Подавляющее большинство найденных последовательностей относится к δ-субъединицам или OSCP-субъединицам АТФ-синтазы. Как можно видеть из Рисунка 8, в найденной белковой последовательности был обнаружен консервативный домен OSCP-субъединицы АТФ-синтазы.

Таким образом, все эти факты в совокупности позволяют видвинуть предположение, что ген δ-субъединицы АТФ-синтазы Sphaeroforma arctica действительно оказался разделен между скаффолдами NW_014037128.1 и NW_014036311.1, а сами эти скаффолды вероятно должны располагаться последовательно на хромосоме Sphaeroforma arctica (Рис. 9).

Scafffolds of Sphaeroforma arctica
Рисунок 9. Предполагаемый вариант расположения скаффолдов, содержащих части гена δ-субъединицы АТФ-синтазы, в геноме Sphaeroforma arctica.

Поиск генов рибосомных РНК по далекому гомологу

В геномной сборке Sphaerofoma arctica аннотированы всего 6 генов рРНК, причем все эти гены кодируют 5S рРНК. Поэтому при помощи локального blastn был произведен поиск генов рибосомных РНК в геномной сборке с последовательностями 16S и 23S рРНК E. coli в качестве запроса. Для повышения чувствительности инструмента была задана длина слова (word_size) равная 7 (по умолчанию - 11):

blastn -query 16S_query.txt -db S_arc_db\S_arctica -word_size 7 -outfmt 7 -out 16S.txt

blastn -query 23S_query.txt -db S_arc_db\S_arctica -word_size 7 -outfmt 7 -out 23S.txt

Для 16S рРНК было найдено 23 хита в 20 скаффолдах геномной сборки Sphaeroforma arctica (Рис. 10).

blastn for 16S rrna
Рисунок 10. Визуализация результатов поиска blastn 16S рРНК E. coli по скаффолдам геномной сборки Sphaeroforma arctica. Зеленой рамкой выделены находки, в которых имеется хит с e-value не более 0.05.

Для 23S рРНК было найдено 19 хитов в 16 скаффолдах (Рис. 11).

blastn for 23S rrna
Рисунок 11. Визуализация результатов поиска blastn 23S рРНК E. coli по скаффолдам геномной сборки Sphaeroforma arctica. Зеленой рамкой выделены находки, в которых имеется хит с e-value не более 0.05.

Полученные находки могут соотвествовать гомологичным для 16S и 23S рРНК E. coli последовательностям генома Sphaeroforma arctica. В случае данного эукариотического организма гомологами бактериальной 16S рРНК могут быть 18S рРНК малой субъединицы (40S) цитоплазматической рибосомы (80S) и 12S рРНК малой субъединицы (28S) митохондриальной рибосомы (55S), 23S рРНК — 28S рРНК большой субъединицы (60S) цитоплазматической рибосомы или 16S рРНК большой субъединицы (39S) митохондриальной рибосомы.

Стоит отметить, что и для 16S рРНК, и для 23S рРНК имеются находки в скаффолде NW_014024939.1, обозначенном как митохондриальный: для 16S рРНК e-value 3×10-4, для 23S рРНК — 4.4. То есть существует вероятность, что были найдены гены митохондриальных 12S и (что менее вероятно) 16S рРНК. Всего для 16S рРНК было найдено 4 хита с e-value менее 0.05, расположенных на разных скаффолдах, поэтому можно предположить, что они соотвествуют четырем гомологам бактериальной 16S рРНК в геноме Sphaeroforma arctica; для 23S рРНК - только 2 хита с e-value менее 0.05 на разных скаффолдах, они могут соотвествовать двум гомологам 23S рРНК в геноме Sphaeroforma arctica.

Карты локального сходства последовательностей

Все последовательности были найдены на сайте NCBI Datasets по названию таксона.

Изначально были построены карты локального сходства для хромосом бактерий Octadecabacter arcticus (NC_020908.1) и Octadecabacter antarcticus (NC_020911.1) при помощи Megablast и blastn (Рис. 12). Использовались параметры по умолчанию.

BLAST dotplot for Octadecabacter
Рисунок 12. Карты локального сходства для хромосом бактерий Octadecabacter arcticus и Octadecabacter antarcticus, построенные при помощи Megablast и blastn. Красными рамками выделены некоторые непрерывные участки гомологии.

Наблюдаемая картина, вероятно, свидетельствует о многочисленных перестройках в хромосоме у одной бактерии относительно другой, участки непрерывного сходства невелики (их длина до десятков тысяч п.н., длина хромосомы — примерно 5 млн п.н.). Можно видеть, что при использовании blastn было найдено большее количество локальных сходных участков ("шум" на изображении более выражен), однако непрерывные участки гомологии остались практически неизменными. В целом данная картина согласуется с литературными данными [1].

Однако, как выяснилось, проведение сравнения двух последовательностей длиной 5 млн п.н. на сайте NCBI Blast не представляется возможным. Поэтому для построения карт локального сходства тремя методами: Megablast, blastn и tblastx (Рис. 13) были выбраны более короткие (около 1 млн п.н.) хромосомы бактерий Chlamydia serpentis (NZ_LT993738.1) и Chlamydia poikilotherma (NZ_LS992154.1).

BLAST dotplot for Chlamydia
Рисунок 13. Карты локального сходства для хромосом бактерий Chlamydia serpentis и Chlamydia poikilotherma, построенные при помощи Megablast, blastn и tblastx. Красной рамкой показано вероятное событие транслокации с инверсией. Использовались параметры по умолчанию.

Как можно видеть, поиск при помощи blastn и tblastx позволил определить более протяженные непрерывные участки гомологии, нежели при использовании Megablast. Также при использовании tblastx было найдено больше участков локального сходства (одна из возможных причин - повторы в геноме), чем при использовании blastn.

Можно заметить, что для данных двух бактерий были взяты последовательности разных цепей хромосомы (преимущественно нисходящая прямая на графике), также последовательность хромосомы одной бактерии начинается не с той же позиции, что у другой, а также на карте заметно вероятное событие транслокации с инверсией (Рис. 13, красная рамка).

ИСТОЧНИКИ

  1. Vollmers J, Voget S, Dietrich S, Gollnow K, Smits M, Meyer K, Brinkhoff T, Simon M, Daniel R. Poles apart: Arctic and Antarctic Octadecabacter strains share high genome plasticity and a new type of xanthorhodopsin. PLoS One. 2013 May 6;8(5):e63422. doi: 10.1371/journal.pone.0063422. PMID: 23671678; PMCID: PMC3646047.