Нуклеотидные базы данных

Задание 1. Выбор геномной сборки

Сначала я хотел выбрать геномную сборку своей любимой ромашки Tripleurospermum subbpolare, но почему-то никто никогда не собирал ее геном. Опечалившись, я решил сменить тематику и начал перебирать беломорские мхи, вводя один за другим видовые названия в поиск, но и тут меня ждало лишь разочарование. Отчаявшись окончательно, я просто начал поиск по всем мхам (запрос «Bryophyta (mosses)») и понял, что выбор у меня не велик. Радовало лишь то, что почти все мхи в выдаче были знакомы. Я решил выбрать один из самых крупных родов мхов — Pohlia, а точнее единственный представленный в выдаче вид Pohlia nutans.

Вообще это дико крутой вид хотя бы потому, что в отличие от подавляющего большинства других представителей этого рода его можно узнать в поле! Не поймите неправильно, уважающий себя специалист со стажем в 50 лет узнает любую полию, но я интересуюсь ими всего года три, так что увы. Фотография этой красоты ниже (Рис. 1, слева).

Когда я дописал этот абзац, обнаружил, что геном полии не аннотирован от слова совсем, поэтому мне пришлось сменить полию на менее изящный Physcomitrium patens. Его фотографию тоже представил (Рис. 1, справа).

fig1
Рис. 1. Слева тоненький и нежный мох Pohlia nutans, фотография взята из интернет-ресурса earth.com. Справа близкий вид (Physcomitrium sphaericum) выбранного мной Physcomitrium patens (для него самого все фотографии такие себе). Источник: Mosses and Liverworts of Britain and Ireland: a field guide (Atherton et al., 2010).

Геномная сборка выбранного организма доступна по ссылке. Он аннотирован RefSeq и GenBank весной 2018 года, качество сборки (Assembly level) Chromosome, то есть оно на уровне отдельных хромосом, которых отмечено 27 штук (дополнены митохондриальным и пластидным геномами). Выше не было сказано, но это модельный организм среди мхов, так что сравнить информацию с альтернативной было не сложно (впервые геном был отсеквенирован в 2008 году): число хромосом совпало, длина в примерно 500 Mb тоже (в нашем случае 471.9 Mb).

Качество сборки на уровне хромосом не самое лучшее (на ступень выше находится Complete genome), так как в нем допускаются продолжительные (более 10) последовательности неоднозначных (N) оснований. Это референсный геном, то есть вручную отобранный и высокого качества (что подтвердили и другие специалисты), что отличает его от репрезентативного генома (который может быть выбран вычислительными методами и не обязан быть лучшим из лучших).


Задание 2. Характеристики сборки

Ниже представлена таблица (Таблица 1) с характеристиками выбранной геномной сборки. В ней рассмотрены основные параметры сборки, основываясь на данных баз GenBank и RefSeq, в том числе некоторые статистические показатели длин наборов контигов.

Эти показатели можно применять не только для контигов, но и для скаффолдов — упорядоченных и ориентированных наборов контигов, которые являются промежуточным этапом в сборке генома.

GenBank RefSeq
Идентификатор GCF_000002425.4 GCA_000002425.2
Размер генома 471.9 Mb 471.9 Mb
Информация по скаффолдам
Число скаффолдов 357 357
N50 для скаффолдов 17 435 539 нуклеотидов 17 435 539 нуклеотидов
L50 для скаффолдов 12 скаффолдов 12 скаффолдов
Информация по контигам
Число контигов 3000 3000
N50 для контигов 465 069 нуклеотидов 465 069 нуклеотидов
L50 для контигов 311 контигов 311 контигов

Таблица 1. Различные показатели сборки и статистические показатели для контигов и скаффолдов. Основана на информации из базы данных NCBI.

Задание 3. Дополнительные файлы

Файлы были получены всё с той же страницы базы данных NCBI, ссылка на которую приводилась выше. Для работы потребовались файлы Genome sequences (FASTA), Protein (FASTA), Sequence and annotation (GBFF).


Задание 4. Больше дополнительных файлов!

Ниже представлена таблица с файлами (Таблица 2), которые были получены из NCBI, и информацией, которую мне удалось из них извлечь.

Название файла Описание содержимого Что интересное там нашлось
Phypa_V3_genomic.fna Последовательность всего генома по хромосомам Файл сразу же порадовал довольно большими последовательностями N, что довольно грустно, но по всей сборке их оказалось не так уж и много. Особой аннотации нет, только информация о принадлежности последовательности к той или иной хромосоме.
cds_from_genomic.fna Последовательности, кодирующие белки (CDS) Это очень странно, но я не нашел тут ни одного псевдогена! Поиск велся при помощи поиска по слову «pseudo», который выдал крайне много всего, связанного с тРНК псевдоуридина. Аннотация здесь минимальна.
rna.fna Последовательности РНК (транскриптом) Просто последовательности матричных РНК и белков, каждые в своем файле, формат FASTA, аннотация минимальна.
protein.faa Белковые последовательности (протеом)
genomic.gbff Аннотированная последовательность (GBFF) Файл довольно удобен для работы: для каждой последовательности показана она и из генома, и из транскриптома, и из протеома (если они имеются). Отсюда я узнал, что генов в таблице 23 747, мРНК 47 895, а белков 48 022. Оказалось, что для большинства генов записано несколько пар мРНК и белков, которые являются вариантами транскрипта и изоформамаи для мРНК и белков соответственно.
genomic.gff Таблица с аннотацией (GFF) Аннотацию мы уже наблюдали, так что интереснее было сравнить, чем файлы отличаются между собой. Оказалось, что таблица GTF избыточнее в плане информациии о интрон-экзонной структуре генов, и она тут активно прослеживается. Потом я поискал информацию в интернете и понял, что GTF является более точной версией GFF2 (то есть второй генерации GFF), по крайней мере если верить Wikipedia.org. Итого я бы считал информацию из GTF наиболее информативной и полной, а информацию из GBFF наиболее удобной для работы, так как там приведены и последовательности тоже. Хотя это не всегда плюс, но тем не менее.
genomic.gtf Другая таблица с аннотацией (GTF)
sequence_report.jsonl Отчет о данных сборки Файл с технической информацией о хромосомах и скаффолдах, ничего интересного я в нем не обнаружил (кроме, разве что, длин).

Таблица 2. Различные файлы сборки генома. Название файла GCF_000002425.4_Phypa_V3_genomic.fna мне показалось слишком длинным и мешающим визуальной составляющей, поэтому я сократил его до Phypa_V3_genomic.fna.

Задание 6. Геномы органелл

Поскольку было выбрано вполне себе фотосинтезирующее растение, наличие геномов митохондрии и пластиды сюрпризом не стало. Информация об этих органеллах приведена в таблице ниже (Таблица 3).

Митохондрия Пластида
Идентификатор в GenBank AB251495.1 AP005672.1
Идентификатор в RefSeq NC_007945.1 NC_005087.1
Число CDS 42 85
Число генов рРНК 3 8
Число генов тРНК 24 37
Число псевдогенов 0 1

Таблица 3. Информация о митохондриальном и пластидном геномах.