Геномная сборка Sphaeroforma arctica и нуклеотидные банки данных

Геномная сборка Sphaerofoma arctica

Для дальнейшей работы был выбран представитель класса Ichtyosporea из клады Holozoa — Sphaeroforma arctica (Рис. 0).

Данный организм является перспективным кандидатом в модельные организмы для изучения происхождения многоклеточности, в том числе из-за того, что класс Ichtyosporea филогенетически близок к Metazoa. Особеннотью Sphaeroforma arctica является относительно простой жизненный цикл без жгутиковых, амебоидных и почкующихся стадий, что облегчает его культивирование и изучение в лабораторных условиях и позволяет создавать синхронизированные популяции.

Mitochondrial scaffold of Sphaeroforma arctica
Рисунок 0. Представитель Sphaeroforma arctica, окрашенный фаллоидином (актиновые филаменты) и DAPI (ядра).

Также Sphaeroforma arctica в жизненном цикле проходит стадию многоядерного ценоцита (до 128 ядер, с этой стадией связано также то, что в отличие от многих других Ichtyosporea для S.arctica характерен закрытый митоз), подвергающегося целлюляризации с образованием поляризованного слоя клеток, напоминающего эпителий. Причем процесс целлюляризации обеспечивается актин-миозиновым комплексом, как и у Metazoa (например, при образовании бластодермы перибластулы у членистоногих).

Для Sphaeroforma arctica существуют 2 геномные сборки: одна с уровнем сборки Scaffold, другая — Contig. Для дальнейшего анализа была выбрана сборка с уровнем Scaffold, информация о ней приведена в Таблице 1.

Таблица 1. Информация о выбранной геномной сборке Sphaeroforma arctica. Показатель N50 отражает максимальную длину фрагмента (контига или скаффолда), для которого суммарная длина всех фрагментов не короче него составляет не менее половины от суммарной длины всех фрагментов. L50 — количество фрагментов с длиной не меньше длины N50.
GenBank GCA_001186125.1
RefSeq GCF_001186125.1
Уровень сборки Scaffold
Размер генома (п.н.) 121 631 465
Число скаффолдов 15 619
N50 для скаффолдов (п.н.) 64 598
L50 для скаффолдов 516
Число контигов 25 774
N50 для контигов (п.н.) 7 125
L50 для контигов 3 774

Поисковые системы NCBI, ENA и DDBJ

Был произведен поиск белка кофилина (белок, стимулирующий деполимеризацию актиновых филаментов) на сайтах NCBI, ENA и DDBJ.

В случае базы данных NCBI был проиведен поиск по наличию слова cofilin в поле Title по базе данных Nucleotide: cofilin[Title]. Результаты поиска представлены в Таблице 2.

Таблица 2. Результаты поиска по запросу cofilin[Title] и базе данных Nucleotide на сайте NCBI. В скобках указано число находок для человека (Homo sapiens)
База данных mRNA genomic DNA/RNA Всего
GenBank 1 617 (399) 26 (7) 1 695 (406)
RefSeq 2 165 (4) 9 (8) 2 190 (15)
Всего 3 782 (403) 35 (15) 3 885 (421)

Стоит отметить, что не все данные последовательности имеют непосредственное отношение к белковому продукту. Например, была найдена 5'-нетранслируемая область мРНК кофилина (D28345.1).

На сайте ENA был проиведен поиск нуклеотидных последовательностей человека, содержащих в полях Description или Scientific Name слово cofilin. Было найдено 400 мРНК (mRNA) и 2 геномные последовательности (genomic DNA).

Запрос в ENA для мРНК: tax_eq(9606) AND (description="cofilin" OR scientific_name="cofilin") AND mol_type="mrna"

Запрос в ENA для геномных последовательностей: tax_eq(9606) AND (description="cofilin" OR scientific_name="cofilin") AND mol_type="genomic dna"

На сайте DDBJ был осуществлен поиск нуклеотидных последовательностей кофилина человека (при запросе слово cofilin использовалось в поле Definition, был выбран раздел HUM в поле Division, тип молекулы, mRNA или DNA, задавался в поле Molecular Type). Было найдено 19 мРНК (mRNA) и 2 геномные последовательности (DNA).

Из данных поисковых систем самой привычной и простой в использовании кажется NCBI, однако интерфейс составления запросов несколько удобнее в ENA. Для биоинформатических целей я бы скорее стал использовать NCBI, в том числе потому, что, по-видимому, поисковая система NCBI позволяет найти большее количество разнообразных записей по сравнению с ENA и DDBJ по сходному запросу.

Файлы сборки из NCBI FTP

Описание файлов данной сборки, найденных при помощи NCBI FTP:

Из данных файлов можно понять, например, что в сборке есть один скаффолд, определенный как митохондриальный (файл *_assembly_report.txt). Также в данной сборке аннотированы 18730 CDS, 18213 белок-кодирующих генов, 106 псевдогенов, 6 генов рРНК, 318 генов тРНК и 18 псевдогенов тРНК (файл *_feature_count.txt.gz).

Помимо прочего именно в файле *_assembly_stats.txt содержатся полные данные о таких параметрах, как число контигов и скаффолдов, N50 и L50. На странице сборки в NCBI Datasets приведены данные лишь для единицы сборки (Assembly Unit) Primary Assembly, тогда как единица сборки non-nuclear не учтена.

Органеллы

В рассматриваемой геномной сборке имеется один скаффолд, определенный как митохондриальный. В файле *_assembly_report.txt для единицы сборки non-nuclear, в которую входит этот скаффолд, указаны отдельные AC: GCA_001187675.1 (GenBank) и GCF_001187675.1 (RefSeq). Последовательность данного скаффолда имеет AC NW_014024939.1 в RefSeq.

Однако, для данного скаффолда отсутствуют какие-либо аннотации (Рис. 1).

Mitochondrial scaffold of Sphaeroforma arctica
Рисунок 1. Митохондриальный скаффолд в геномном браузере NCBI.

Диаграмма длин фрагментов генома

Для скаффолдов геномной сборки методами Python была построена диаграмма, отражающая распределение их длин (Рис. 2, данные о N75, L75, N90 и L90 взяты из файлов *_assembly_stats.txt и *_assembly_report.txt, фрагменты для подсчета длин — из файла *_genomic.fna)

Scaffold lengths distribution for Sphaeroforma arctica genome
Рисунок 2. Распределение длин скаффолдов для выбранной геномной сборки. Показаны точки, соответсвующие параметрам N50 и L50, N75 и L75, N90 и L90.

Как можно видеть, качество геномной сборки оставляет желать лучшего. Значение L50 имеет порядок сотен (516), параметр N50 (64.6 kb) выглядит незначительным в сравнении с длиной всей сборки (121.6 Mb) и длиной без гэпов (97.5 Mb, получена из файла *_assembly_stats.txt), которые при этом не равны, что также говорит не в пользу качества данной сборки. Также из Рисунка 2 можно видеть, что большая часть скаффолдов (почти 12000 из 15619) имеет длину от 500 до 3000 п.н.