Нуклеотидные базы данных

Задание 1. Выбор геномной сборки

Сначала я хотел выбрать геномную сборку своей любимой ромашки Tripleurospermum subbpolare, но почему-то никто никогда не собирал ее геном. Опечалившись, я решил сменить тематику и начал перебирать беломорские мхи, вводя один за другим видовые названия в поиск, но и тут меня ждало лишь разочарование. Отчаявшись окончательно, я просто начал поиск по всем мхам (запрос «Bryophyta (mosses)») и понял, что выбор у меня не велик. Радовало лишь то, что почти все мхи в выдаче были знакомы. Я решил выбрать один из самых крупных родов мхов — Pohlia, а точнее единственный представленный в выдаче вид Pohlia nutans.

Вообще это дико крутой вид хотя бы потому, что в отличие от подавляющего большинства других представителей этого рода его можно узнать в поле! Не поймите неправильно, уважающий себя специалист со стажем в 50 лет узнает любую полию, но я интересуюсь ими всего года три, так что увы. Фотография этой красоты ниже (Рис. 1, слева).

Когда я дописал этот абзац, обнаружил, что геном полии не аннотирован от слова совсем, поэтому мне пришлось сменить полию на менее изящный Physcomitrium patens. Его фотографию тоже представил (Рис. 1, справа).

fig1 — **Рис. 1.** Слева тоненький и нежный мох *Pohlia nutans*, фотография взята из интернет-ресурса earth.com. Справа близкий вид (*Physcomitrium sphaericum*) выбранного мной *Physcomitrium patens* (для него самого все фотографии такие себе). Источник: Mosses and Liverworts of Britain and Ireland: a field guide (Atherton et al., 2010).

Геномная сборка выбранного организма доступна по ссылке. Он аннотирован RefSeq и GenBank весной 2018 года, качество сборки (Assembly level) Chromosome, то есть оно на уровне отдельных хромосом, которых отмечено 27 штук (дополнены митохондриальным и пластидным геномами). Выше не было сказано, но это модельный организм среди мхов, так что сравнить информацию с альтернативной было не сложно (впервые геном был отсеквенирован в 2008 году): число хромосом совпало, длина в примерно 500 Mb тоже (в нашем случае 471.9 Mb).

Качество сборки на уровне хромосом не самое лучшее (на ступень выше находится Complete genome), так как в нем допускаются продолжительные (более 10) последовательности неоднозначных (N) оснований. Это референсный геном, то есть вручную отобранный и высокого качества (что подтвердили и другие специалисты), что отличает его от репрезентативного генома (который может быть выбран вычислительными методами и не обязан быть лучшим из лучших).

Задание 2. Характеристики сборки

Ниже представлена таблица (Таблица 1) с характеристиками выбранной геномной сборки. В ней рассмотрены основные параметры сборки, основываясь на данных баз GenBank и RefSeq, в том числе некоторые статистические показатели длин наборов контигов.

N50 — Такая максимальная длина контига, что суммарная длина всех контигов не короче этого представляет из себя не менее половины общей длины всех контигов в сборке.
L50 — Минимальное число контигов, которые включают половину всех нуклеотидов сборки.

Эти показатели можно применять не только для контигов, но и для скаффолдов — упорядоченных и ориентированных наборов контигов, которые являются промежуточным этапом в сборке генома.

	GenBank	RefSeq
Идентификатор	GCF_000002425.4	GCA_000002425.2
Размер генома	471.9 Mb	471.9 Mb
Информация по скаффолдам
Число скаффолдов	357	357
N50 для скаффолдов	17 435 539 нуклеотидов	17 435 539 нуклеотидов
L50 для скаффолдов	12 скаффолдов	12 скаффолдов
Информация по контигам
Число контигов	3000	3000
N50 для контигов	465 069 нуклеотидов	465 069 нуклеотидов
L50 для контигов	311 контигов	311 контигов

Таблица 1. Различные показатели сборки и статистические показатели для контигов и скаффолдов. Основана на информации из базы данных NCBI.

Задание 3. Дополнительные файлы

Файлы были получены всё с той же страницы базы данных NCBI, ссылка на которую приводилась выше. Для работы потребовались файлы Genome sequences (FASTA), Protein (FASTA), Sequence and annotation (GBFF).

Задание 4. Больше дополнительных файлов!

Ниже представлена таблица с файлами (Таблица 2), которые были получены из NCBI, и информацией, которую мне удалось из них извлечь.

Название файла	Описание содержимого	Что интересное там нашлось
Phypa_V3_genomic.fna	Последовательность всего генома по хромосомам	Файл сразу же порадовал довольно большими последовательностями N, что довольно грустно, но по всей сборке их оказалось не так уж и много. Особой аннотации нет, только информация о принадлежности последовательности к той или иной хромосоме.
cds_from_genomic.fna	Последовательности, кодирующие белки (CDS)	Это очень странно, но я не нашел тут ни одного псевдогена! Поиск велся при помощи поиска по слову «pseudo», который выдал крайне много всего, связанного с тРНК псевдоуридина. Аннотация здесь минимальна.
rna.fna	Последовательности РНК (транскриптом)	Просто последовательности матричных РНК и белков, каждые в своем файле, формат FASTA, аннотация минимальна.
protein.faa	Белковые последовательности (протеом)
genomic.gbff	Аннотированная последовательность (GBFF)	Файл довольно удобен для работы: для каждой последовательности показана она и из генома, и из транскриптома, и из протеома (если они имеются). Отсюда я узнал, что генов в таблице 23 747, мРНК 47 895, а белков 48 022. Оказалось, что для большинства генов записано несколько пар мРНК и белков, которые являются вариантами транскрипта и изоформамаи для мРНК и белков соответственно.
genomic.gff	Таблица с аннотацией (GFF)	Аннотацию мы уже наблюдали, так что интереснее было сравнить, чем файлы отличаются между собой. Оказалось, что таблица GTF избыточнее в плане информациии о интрон-экзонной структуре генов, и она тут активно прослеживается. Потом я поискал информацию в интернете и понял, что GTF является более точной версией GFF2 (то есть второй генерации GFF), по крайней мере если верить Wikipedia.org. Итого я бы считал информацию из GTF наиболее информативной и полной, а информацию из GBFF наиболее удобной для работы, так как там приведены и последовательности тоже. Хотя это не всегда плюс, но тем не менее.
genomic.gtf	Другая таблица с аннотацией (GTF)
sequence_report.jsonl	Отчет о данных сборки	Файл с технической информацией о хромосомах и скаффолдах, ничего интересного я в нем не обнаружил (кроме, разве что, длин).

Таблица 2. Различные файлы сборки генома. Название файла GCF_000002425.4_Phypa_V3_genomic.fna мне показалось слишком длинным и мешающим визуальной составляющей, поэтому я сократил его до Phypa_V3_genomic.fna.

Задание 6. Геномы органелл

Поскольку было выбрано вполне себе фотосинтезирующее растение, наличие геномов митохондрии и пластиды сюрпризом не стало. Информация об этих органеллах приведена в таблице ниже (Таблица 3).

	Митохондрия	Пластида
Идентификатор в GenBank	AB251495.1	AP005672.1
Идентификатор в RefSeq	NC_007945.1	NC_005087.1
Число CDS	42	85
Число генов рРНК	3	8
Число генов тРНК	24	37
Число псевдогенов	0	1

Таблица 3. Информация о митохондриальном и пластидном геномах.