Сначала я хотел выбрать геномную сборку своей любимой ромашки Tripleurospermum subbpolare, но почему-то никто никогда не собирал ее геном. Опечалившись, я решил сменить тематику и начал перебирать беломорские мхи, вводя один за другим видовые названия в поиск, но и тут меня ждало лишь разочарование. Отчаявшись окончательно, я просто начал поиск по всем мхам (запрос «Bryophyta (mosses)») и понял, что выбор у меня не велик. Радовало лишь то, что почти все мхи в выдаче были знакомы. Я решил выбрать один из самых крупных родов мхов — Pohlia, а точнее единственный представленный в выдаче вид Pohlia nutans.
Вообще это дико крутой вид хотя бы потому, что в отличие от подавляющего большинства других представителей этого рода его можно узнать в поле! Не поймите неправильно, уважающий себя специалист со стажем в 50 лет узнает любую полию, но я интересуюсь ими всего года три, так что увы. Фотография этой красоты ниже (Рис. 1, слева).
Когда я дописал этот абзац, обнаружил, что геном полии не аннотирован от слова совсем, поэтому мне пришлось сменить полию на менее изящный Physcomitrium patens. Его фотографию тоже представил (Рис. 1, справа).
Геномная сборка выбранного организма доступна по ссылке. Он аннотирован RefSeq и GenBank весной 2018 года, качество сборки (Assembly level) Chromosome, то есть оно на уровне отдельных хромосом, которых отмечено 27 штук (дополнены митохондриальным и пластидным геномами). Выше не было сказано, но это модельный организм среди мхов, так что сравнить информацию с альтернативной было не сложно (впервые геном был отсеквенирован в 2008 году): число хромосом совпало, длина в примерно 500 Mb тоже (в нашем случае 471.9 Mb).
Качество сборки на уровне хромосом не самое лучшее (на ступень выше находится Complete genome), так как в нем допускаются продолжительные (более 10) последовательности неоднозначных (N) оснований. Это референсный геном, то есть вручную отобранный и высокого качества (что подтвердили и другие специалисты), что отличает его от репрезентативного генома (который может быть выбран вычислительными методами и не обязан быть лучшим из лучших).
Ниже представлена таблица (Таблица 1) с характеристиками выбранной геномной сборки. В ней рассмотрены основные параметры сборки, основываясь на данных баз GenBank и RefSeq, в том числе некоторые статистические показатели длин наборов контигов.
Эти показатели можно применять не только для контигов, но и для скаффолдов — упорядоченных и ориентированных наборов контигов, которые являются промежуточным этапом в сборке генома.
GenBank | RefSeq | |
---|---|---|
Идентификатор | GCF_000002425.4 | GCA_000002425.2 |
Размер генома | 471.9 Mb | 471.9 Mb |
Информация по скаффолдам | ||
Число скаффолдов | 357 | 357 |
N50 для скаффолдов | 17 435 539 нуклеотидов | 17 435 539 нуклеотидов |
L50 для скаффолдов | 12 скаффолдов | 12 скаффолдов |
Информация по контигам | ||
Число контигов | 3000 | 3000 |
N50 для контигов | 465 069 нуклеотидов | 465 069 нуклеотидов |
L50 для контигов | 311 контигов | 311 контигов |
Файлы были получены всё с той же страницы базы данных NCBI, ссылка на которую приводилась выше. Для работы потребовались файлы Genome sequences (FASTA), Protein (FASTA), Sequence and annotation (GBFF).
Ниже представлена таблица с файлами (Таблица 2), которые были получены из NCBI, и информацией, которую мне удалось из них извлечь.
Название файла | Описание содержимого | Что интересное там нашлось |
---|---|---|
Phypa_V3_genomic.fna | Последовательность всего генома по хромосомам | Файл сразу же порадовал довольно большими последовательностями N, что довольно грустно, но по всей сборке их оказалось не так уж и много. Особой аннотации нет, только информация о принадлежности последовательности к той или иной хромосоме. |
cds_from_genomic.fna | Последовательности, кодирующие белки (CDS) | Это очень странно, но я не нашел тут ни одного псевдогена! Поиск велся при помощи поиска по слову «pseudo», который выдал крайне много всего, связанного с тРНК псевдоуридина. Аннотация здесь минимальна. |
rna.fna | Последовательности РНК (транскриптом) | Просто последовательности матричных РНК и белков, каждые в своем файле, формат FASTA, аннотация минимальна. |
protein.faa | Белковые последовательности (протеом) | |
genomic.gbff | Аннотированная последовательность (GBFF) | Файл довольно удобен для работы: для каждой последовательности показана она и из генома, и из транскриптома, и из протеома (если они имеются). Отсюда я узнал, что генов в таблице 23 747, мРНК 47 895, а белков 48 022. Оказалось, что для большинства генов записано несколько пар мРНК и белков, которые являются вариантами транскрипта и изоформамаи для мРНК и белков соответственно. |
genomic.gff | Таблица с аннотацией (GFF) | Аннотацию мы уже наблюдали, так что интереснее было сравнить, чем файлы отличаются между собой. Оказалось, что таблица GTF избыточнее в плане информациии о интрон-экзонной структуре генов, и она тут активно прослеживается. Потом я поискал информацию в интернете и понял, что GTF является более точной версией GFF2 (то есть второй генерации GFF), по крайней мере если верить Wikipedia.org. Итого я бы считал информацию из GTF наиболее информативной и полной, а информацию из GBFF наиболее удобной для работы, так как там приведены и последовательности тоже. Хотя это не всегда плюс, но тем не менее. |
genomic.gtf | Другая таблица с аннотацией (GTF) | |
sequence_report.jsonl | Отчет о данных сборки | Файл с технической информацией о хромосомах и скаффолдах, ничего интересного я в нем не обнаружил (кроме, разве что, длин). |
Поскольку было выбрано вполне себе фотосинтезирующее растение, наличие геномов митохондрии и пластиды сюрпризом не стало. Информация об этих органеллах приведена в таблице ниже (Таблица 3).
Митохондрия | Пластида | |
---|---|---|
Идентификатор в GenBank | AB251495.1 | AP005672.1 |
Идентификатор в RefSeq | NC_007945.1 | NC_005087.1 |
Число CDS | 42 | 85 |
Число генов рРНК | 3 | 8 |
Число генов тРНК | 24 | 37 |
Число псевдогенов | 0 | 1 |