Ген δ-субъединицы АТФ-синтазы
Среди белковых последовательностей Sphaeroforma arctica была найдена одна (XP_014147786.1), аннотированная как δ-субъединицы АТФ-синтазы.
Данной аминокислотной последовательности соотвествует нуклеотидная последовательность с идентификатором NW_014037128.1, расположенная на скаффолде №3430 (NW_014037128). Из данного скаффолда был вырезан участок, содержащий рассматриваемый ген.
Далее был осуществлен поиск гомологичных последовательностей при помощи различных вариантов BLAST. Для поиска было выбрано семейство членистоногих Apoidea (пчелы), для данного семейства имеется достаточно большое количество (38) аннотированных геномных сборок в RefSeq.
Сначала был проведен поиск при помощи blastn с длиной слова 7. При пороге e-value по умолчанию (0.05) не было найдено ни одной значимой находки. При повышении порога до 2, были найдены два совпадения (Рис. 2), которые однако, вряд ли имеют биологический смысл, поскольку эти находки выравниваются на некодирующие участки запроса.
Далее, в связи с непригодностью blastn потенциально гомологичных последовательностей в данном случае, для поиска был использован tblastx c настройками по умолчанию по той же базе данных, на странице в NCBI Taxonomy для Sphaeroforma arctica указана стандартная таблица генетического кода, она и использовалась для трансляции при поиске. Результаты приведены на Рисунке 3. Всего было найдено 45 хитов для всех 38 геномов семейства Apoidea из refseq_genomes. Часть находок выровнялась только на один экзон запроса, другая — на оба.
Что интересно, для некоторых находок было указано, что в выравнивании с запросом участвует последовательность субъединицы O АТФ-синтазы (Рис. 4). Субъединица O (или OSCP — oligomycin-sensitivity conferring protein) и δ-субъединица являются обозначениями для одного и того же митохондриального белка, являющегося частью статора в АТФ-синтазе.
Также стоит отметить, что те участки генов субъединицы O из находок, которые выровнялись на оба экзона запроса, в собственном геноме не разделены интроном (и даже иногда немного перекрываются, см. Рис. 4) и находятся в последнем четвертом экзоне гена субъединицы O АТФ-синтазы. Можно предположить, что в скаффолд из сборки Sphaeroforma arctica, содержащий ген δ-субъединицы, попал не весь этот ген, а лишь его 3'-концевая часть, из-за чего предполагаемый ген δ-субъединицы АТФ-синтазы Sphaeroforma arctica соотвествует лишь последнему из четырех экзонов гомологичных генов других организмов.
Можно предположить, что среди скаффолдов сборки можно найти содержащий 5'-концевую часть гена δ-субъединицы. Для этого была скачана последовательность гена субъединицы O Bombus fervidus. Для данной последовательности при помощи локального tblastx был проведен поиск по базе данных, полученной из последоватеельностей скаффолдов геномной сборки Sphaeroforma arctica:
makeblastdb -in Genome_S_arctica.fna -dbtype nucl -out S_arc_db/S_arctica
tblastx -query ATP_delta_complete.txt -db S_arc_db\S_arctica -outfmt 7 -out found.txt
Среди результатов поиска с достаточно низким e-value имелись 2 найденных ранее хита со скаффолдом NW_014037128.1, а также еще один хит с другим скаффолдом — NW_014036311.1 (Рис. 5).
Из найденного скаффолда был вырезан участок, выровненный на запрос, с окрестностью и произведен поиск при помощи tblastx по базе данных refseq_genomes и таксону Apoidea. В результате потенциальные гомологи были найдены во всех 38 сборках базы (Рис. 6).
Сопоставленные локальным tblastx участки скаффолда Sphaeroforma arctica и хромосомы Bombus fervidus были визуализированы в NCBI Genome Data Viewer (Рис. 7). Как можно видеть, выровнялись участки содержащие третий экзон гена субъединицы O со стороны Bombus fervidus и ген некоторого неохарактеризованного белка (XP_014147169.1) со стороны Sphaeroforma arctica.
Последовательность найденного неохарактеризованного белка Sphaeroforma arctica получена из той же рамки считывания, что и выровненный с экзоном субъединицы O Bombus fervidus участок. Наконец, для данной белковой последовательности был проведен поиск при помощи blastp по базе данных refseq_select_prot (Рис. 8).
Подавляющее большинство найденных последовательностей относится к δ-субъединицам или OSCP-субъединицам АТФ-синтазы. Как можно видеть из Рисунка 8, в найденной белковой последовательности был обнаружен консервативный домен OSCP-субъединицы АТФ-синтазы.
Таким образом, все эти факты в совокупности позволяют видвинуть предположение, что ген δ-субъединицы АТФ-синтазы Sphaeroforma arctica действительно оказался разделен между скаффолдами NW_014037128.1 и NW_014036311.1, а сами эти скаффолды вероятно должны располагаться последовательно на хромосоме Sphaeroforma arctica (Рис. 9).
Поиск генов рибосомных РНК по далекому гомологу
В геномной сборке Sphaerofoma arctica аннотированы всего 6 генов рРНК, причем все эти гены кодируют 5S рРНК. Поэтому при помощи локального blastn был произведен поиск генов рибосомных РНК в геномной сборке с последовательностями 16S и 23S рРНК E. coli в качестве запроса. Для повышения чувствительности инструмента была задана длина слова (word_size) равная 7 (по умолчанию - 11):
blastn -query 16S_query.txt -db S_arc_db\S_arctica -word_size 7 -outfmt 7 -out 16S.txt
blastn -query 23S_query.txt -db S_arc_db\S_arctica -word_size 7 -outfmt 7 -out 23S.txt
Для 16S рРНК было найдено 23 хита в 20 скаффолдах геномной сборки Sphaeroforma arctica (Рис. 10).
Для 23S рРНК было найдено 19 хитов в 16 скаффолдах (Рис. 11).
Полученные находки могут соотвествовать гомологичным для 16S и 23S рРНК E. coli последовательностям генома Sphaeroforma arctica. В случае данного эукариотического организма гомологами бактериальной 16S рРНК могут быть 18S рРНК малой субъединицы (40S) цитоплазматической рибосомы (80S) и 12S рРНК малой субъединицы (28S) митохондриальной рибосомы (55S), 23S рРНК — 28S рРНК большой субъединицы (60S) цитоплазматической рибосомы или 16S рРНК большой субъединицы (39S) митохондриальной рибосомы.
Стоит отметить, что и для 16S рРНК, и для 23S рРНК имеются находки в скаффолде NW_014024939.1, обозначенном как митохондриальный: для 16S рРНК e-value 3×10-4, для 23S рРНК — 4.4. То есть существует вероятность, что были найдены гены митохондриальных 12S и (что менее вероятно) 16S рРНК. Всего для 16S рРНК было найдено 4 хита с e-value менее 0.05, расположенных на разных скаффолдах, поэтому можно предположить, что они соотвествуют четырем гомологам бактериальной 16S рРНК в геноме Sphaeroforma arctica; для 23S рРНК - только 2 хита с e-value менее 0.05 на разных скаффолдах, они могут соотвествовать двум гомологам 23S рРНК в геноме Sphaeroforma arctica.
Карты локального сходства последовательностей
Все последовательности были найдены на сайте NCBI Datasets по названию таксона.
Изначально были построены карты локального сходства для хромосом бактерий Octadecabacter arcticus (NC_020908.1) и Octadecabacter antarcticus (NC_020911.1) при помощи Megablast и blastn (Рис. 12). Использовались параметры по умолчанию.
Наблюдаемая картина, вероятно, свидетельствует о многочисленных перестройках в хромосоме у одной бактерии относительно другой, участки непрерывного сходства невелики (их длина до десятков тысяч п.н., длина хромосомы — примерно 5 млн п.н.). Можно видеть, что при использовании blastn было найдено большее количество локальных сходных участков ("шум" на изображении более выражен), однако непрерывные участки гомологии остались практически неизменными. В целом данная картина согласуется с литературными данными [1].
Однако, как выяснилось, проведение сравнения двух последовательностей длиной 5 млн п.н. на сайте NCBI Blast не представляется возможным. Поэтому для построения карт локального сходства тремя методами: Megablast, blastn и tblastx (Рис. 13) были выбраны более короткие (около 1 млн п.н.) хромосомы бактерий Chlamydia serpentis (NZ_LT993738.1) и Chlamydia poikilotherma (NZ_LS992154.1).
Как можно видеть, поиск при помощи blastn и tblastx позволил определить более протяженные непрерывные участки гомологии, нежели при использовании Megablast. Также при использовании tblastx было найдено больше участков локального сходства (одна из возможных причин - повторы в геноме), чем при использовании blastn.
Можно заметить, что для данных двух бактерий были взяты последовательности разных цепей хромосомы (преимущественно нисходящая прямая на графике), также последовательность хромосомы одной бактерии начинается не с той же позиции, что у другой, а также на карте заметно вероятное событие транслокации с инверсией (Рис. 13, красная рамка).
ИСТОЧНИКИ
Vollmers J, Voget S, Dietrich S, Gollnow K, Smits M, Meyer K, Brinkhoff T, Simon M, Daniel R. Poles apart: Arctic and Antarctic Octadecabacter strains share high genome plasticity and a new type of xanthorhodopsin. PLoS One. 2013 May 6;8(5):e63422. doi: 10.1371/journal.pone.0063422. PMID: 23671678; PMCID: PMC3646047.