Геномная сборка Sphaeroforma arctica и нуклеотидные банки данных

Геномная сборка Sphaerofoma arctica

Для дальнейшей работы был выбран представитель класса Ichtyosporea из клады Holozoa — Sphaeroforma arctica (Рис. 0).

Данный организм является перспективным кандидатом в модельные организмы для изучения происхождения многоклеточности, в том числе из-за того, что класс Ichtyosporea филогенетически близок к Metazoa. Особеннотью Sphaeroforma arctica является относительно простой жизненный цикл без жгутиковых, амебоидных и почкующихся стадий, что облегчает его культивирование и изучение в лабораторных условиях и позволяет создавать синхронизированные популяции.

Mitochondrial scaffold of Sphaeroforma arctica — Рисунок 0. Представитель *Sphaeroforma arctica*, окрашенный фаллоидином (актиновые филаменты) и DAPI (ядра).

Также Sphaeroforma arctica в жизненном цикле проходит стадию многоядерного ценоцита (до 128 ядер, с этой стадией связано также то, что в отличие от многих других Ichtyosporea для S.arctica характерен закрытый митоз), подвергающегося целлюляризации с образованием поляризованного слоя клеток, напоминающего эпителий. Причем процесс целлюляризации обеспечивается актин-миозиновым комплексом, как и у Metazoa (например, при образовании бластодермы перибластулы у членистоногих).

Для Sphaeroforma arctica существуют 2 геномные сборки: одна с уровнем сборки Scaffold, другая — Contig. Для дальнейшего анализа была выбрана сборка с уровнем Scaffold, информация о ней приведена в Таблице 1.

Таблица 1. Информация о выбранной геномной сборке *Sphaeroforma arctica*. Показатель N50 отражает максимальную длину фрагмента (контига или скаффолда), для которого суммарная длина всех фрагментов не короче него составляет не менее половины от суммарной длины всех фрагментов. L50 — количество фрагментов с длиной не меньше длины N50.
GenBank	GCA_001186125.1
RefSeq	GCF_001186125.1
Уровень сборки	Scaffold
Размер генома (п.н.)	121 631 465
Число скаффолдов	15 619
N50 для скаффолдов (п.н.)	64 598
L50 для скаффолдов	516
Число контигов	25 774
N50 для контигов (п.н.)	7 125
L50 для контигов	3 774

Поисковые системы NCBI, ENA и DDBJ

Был произведен поиск белка кофилина (белок, стимулирующий деполимеризацию актиновых филаментов) на сайтах NCBI, ENA и DDBJ.

В случае базы данных NCBI был проиведен поиск по наличию слова cofilin в поле Title по базе данных Nucleotide: cofilin[Title]. Результаты поиска представлены в Таблице 2.

Таблица 2. Результаты поиска по запросу cofilin[Title] и базе данных Nucleotide на сайте NCBI. В скобках указано число находок для человека (Homo sapiens)
База данных	mRNA	genomic DNA/RNA	Всего
GenBank	1 617 (399)	26 (7)	1 695 (406)
RefSeq	2 165 (4)	9 (8)	2 190 (15)
Всего	3 782 (403)	35 (15)	3 885 (421)

Стоит отметить, что не все данные последовательности имеют непосредственное отношение к белковому продукту. Например, была найдена 5'-нетранслируемая область мРНК кофилина (D28345.1).

На сайте ENA был проиведен поиск нуклеотидных последовательностей человека, содержащих в полях Description или Scientific Name слово cofilin. Было найдено 400 мРНК (mRNA) и 2 геномные последовательности (genomic DNA).

Запрос в ENA для мРНК: tax_eq(9606) AND (description="cofilin" OR scientific_name="cofilin") AND mol_type="mrna"

Запрос в ENA для геномных последовательностей: tax_eq(9606) AND (description="cofilin" OR scientific_name="cofilin") AND mol_type="genomic dna"

На сайте DDBJ был осуществлен поиск нуклеотидных последовательностей кофилина человека (при запросе слово cofilin использовалось в поле Definition, был выбран раздел HUM в поле Division, тип молекулы, mRNA или DNA, задавался в поле Molecular Type). Было найдено 19 мРНК (mRNA) и 2 геномные последовательности (DNA).

Из данных поисковых систем самой привычной и простой в использовании кажется NCBI, однако интерфейс составления запросов несколько удобнее в ENA. Для биоинформатических целей я бы скорее стал использовать NCBI, в том числе потому, что, по-видимому, поисковая система NCBI позволяет найти большее количество разнообразных записей по сравнению с ENA и DDBJ по сходному запросу.

Файлы сборки из NCBI FTP

Описание файлов данной сборки, найденных при помощи NCBI FTP:

Файлы директории *_assembly_structure — Файлы, предоставляющие детализированную информацию о структуре геномной сборки. В поддиректории non-nuclear содержаться файлы, характеризующие единтсвенный митохондриальный скаффолд сборки, в поддиректории Primary_Assembly — все остальные. В файлах формата AGP описывается, каким образом контиги объединяются в скаффолды. Есть файлы, в которых приведены AC контигов (component_localID2acc) и скаффолдов (scaffold_localID2acc).
*_assembly_report.txt — Файл, содержащий общую информацию о сборке, а также информацию о всех скаффолдах сборки.
*_assembly_stats.txt — Статистические данный о геномной сборке, такие как суммарная длина (total-length), длина без гэпов (ungapped-length), L50, N50 и т.д.
*_cds_from_genomic.fna.gz — Последовательности CDS.
*_fcs_report — Последовательности, определенные как вероятный результат контаминации.
*_feature_count.txt.gz — Статистическая информация о количествах различных геномных особенностей, таких как CDS, гены тРНК, псевдогены и др.
*_feature_table.txt.gz — Таблица геномных особенностей.
*_gene_ontology.gaf.gz — Аннотация GO для аннотированных генов.
*_genomic.fna.gz — Нуклеотидные последовательности геномной сборки.
*_genomic.gbff.gz — Последовательности сборки с аннотациями.
*_genomic.gff.gz — Аннотации последовательностей в формате GFF.
*_genomic.gtf.gz — Аннотации последовательностей в формате GTF.
*_genomic_gaps.txt.gz — Информация о гэпах, описанных в файлах AGP.
*_protein.faa.gz — Аминокислотные последовательности аннотированных белковых продуктов.
*_protein.gpff.gz — Аннотации белковых продуктов.
*_rna.fna.gz — Нуклеотидные последовательности аннотированных РНК-продуктов.
*_rna.gpff.gz — Аннотации РНК-продуктов.
*_rna_from_genomic.fna.gz — Аннотированные участки генома, кодирующие РНК.
*_translated_cds.faa.gz — Аминокислотные последовательности протранслированных аннотированных CDS.

Из данных файлов можно понять, например, что в сборке есть один скаффолд, определенный как митохондриальный (файл *_assembly_report.txt). Также в данной сборке аннотированы 18730 CDS, 18213 белок-кодирующих генов, 106 псевдогенов, 6 генов рРНК, 318 генов тРНК и 18 псевдогенов тРНК (файл *_feature_count.txt.gz).

Помимо прочего именно в файле *_assembly_stats.txt содержатся полные данные о таких параметрах, как число контигов и скаффолдов, N50 и L50. На странице сборки в NCBI Datasets приведены данные лишь для единицы сборки (Assembly Unit) Primary Assembly, тогда как единица сборки non-nuclear не учтена.

Органеллы

В рассматриваемой геномной сборке имеется один скаффолд, определенный как митохондриальный. В файле *_assembly_report.txt для единицы сборки non-nuclear, в которую входит этот скаффолд, указаны отдельные AC: GCA_001187675.1 (GenBank) и GCF_001187675.1 (RefSeq). Последовательность данного скаффолда имеет AC NW_014024939.1 в RefSeq.

Однако, для данного скаффолда отсутствуют какие-либо аннотации (Рис. 1).

Диаграмма длин фрагментов генома

Для скаффолдов геномной сборки методами Python была построена диаграмма, отражающая распределение их длин (Рис. 2, данные о N75, L75, N90 и L90 взяты из файлов *_assembly_stats.txt и *_assembly_report.txt, фрагменты для подсчета длин — из файла *_genomic.fna)

Scaffold lengths distribution for Sphaeroforma arctica genome — Рисунок 2. Распределение длин скаффолдов для выбранной геномной сборки. Показаны точки, соответсвующие параметрам N50 и L50, N75 и L75, N90 и L90.

Как можно видеть, качество геномной сборки оставляет желать лучшего. Значение L50 имеет порядок сотен (516), параметр N50 (64.6 kb) выглядит незначительным в сравнении с длиной всей сборки (121.6 Mb) и длиной без гэпов (97.5 Mb, получена из файла *_assembly_stats.txt), которые при этом не равны, что также говорит не в пользу качества данной сборки. Также из Рисунка 2 можно видеть, что большая часть скаффолдов (почти 12000 из 15619) имеет длину от 500 до 3000 п.н.