Геном синего кита

Для выполнения практикума я решил выбрать синего кита, так как животное это, конечно, поражающее своим масштабом, своей мощью и в то же время плавностью. К тому же, уровень качества сборки у него среди разных животных, которых я подбирал, у единственного был Chromosome (кстати, совсем недавно, 2 октября, она была аннотирована в RefSeq, а до этого в GenBank).

Фотография синего кита
Рис 1. Фотография синего кита (Australian Antarctic Program)

Немного о ките. Общеизвестно, что синий кит является самым большим животным на планете. При этом питается он планкотоном, которого отцеживает из толщи воды. Интересно, что несмотря на свои невероятные размеры, питается он так же, как и какой-нибудь двустворчатый моллюск. Еще одной особенностью, которая делает китов довольно интересным объектом для изучения - количество клеток. Понятно, что такие большие размеры связаны с куда большим суммарным числом клеток, а, соответственно, с намного большим числом делений. Увеличение числа делений сопряжено с увеличением числа ошибок, мутаций, закрепляющихся в некоторых клетках - а, соответсвенно, и с риском возникновения рака. Так вот, сущесвтует, так называемый, парадокс Пето, сформулированный в 1977 английским эпидемиологом статистиком Ричардом Пето. Пето писал, что хоть человек и намного больше мыши, что казалось бы, должно выливаться в более высокую частоту возникновения раковых заболеваний, в реальности этого не происходит. Подобная проблема отлично демонстрируется и существанием китов, слонов, чьи размеры и продолжительность жизни указвают на выработанные механизмы эффективной борьбы с развитием раковых клеток

Подробнее про это можно так же послушать в подкасте Ильи Колмановского "Голый землекоп" студии "Либо-либо"

В кариотипе у кита 44 хромосомы - в сборке 23. Но, как я понял, в данной сборке представлен гаплотип - то есть, только половина от общего числа, плюс половые хромосомы представлены обе - X и Y, так что получается как раз 22+1=23. В сборке так же присутсвует митохондриальная ДНК, но эта часть была аннотирована только в RefSeq.

Образец был собран в 2016 году на побережье Санта Барбары. Кит - самец, исследовали его фибробалст

Сборку я получил по запросу Balaenoptera musculus (Blue whale). При этом было получено два результата: выбранная сборка и еще одна, но тоже взятая из фибробласта этого же кита. Дело в том, что не случайно в первой сборке оказался гаплоидный набор - на самом деле, в технологии секвенирования третьего поколения есть возможность отделения гаплоидных хромосом - они получают название псевдогаплоидных согласно номенклатуре INSDC. При этом из одной соматической клетки получается возможным выделить два псевдогаплоидных набора. Один из них, более полный и точный называют principal pseudohaplotype - главный псевдогаплотип(?). Другой - альтернативным. Так вот, второй результат выдачи на мой запрос - как раз альтернативный псевдогаплоидный набор из той же клетки. Он же имеет уровень качества Scaffold, что указывает на то, почему он альтернативный, по сравнению с другим. У выбранного мной варианта уровень качества Chromosome - там собраны все или некоторые хромосомы, которые могут, при этом, содержать какие-то пропуски, отдельные кусочки последовательности.

Сборка является референсной, то есть вручную отобранная сборка, которая по сравнению с остальными существующими сборками генома этого организма является наиболее качественной.

ID GenBankGCA_009873245.3
ID RefSeqGCF_009873245.2
Общий размер генома2.4 Gb
Scaffold N50110.3 Mb
Scaffold L509
Contig N506.3 Mb
Contig L50103

Параметр N50 указывает размер контига/скаффолда, длиной меньшей или равной, чем у половины всех контигов/скаффолдов в сборке

Параметр L50 указывает наименьшее число контигов/скаффолодов, в которых содержится половина всех нуклеотидов сборки

Все файлы сборки

Название файла Описание
GCF_009873245.2_mBalMus1.pri.v3_cross_species_tx_alns.gff.gzинформация о наличии гомологичных генов у других организмов
Balaenoptera_musculus_AR100_annotation_report.xmlОтчет по аннотированию в формате XML, информация в числах о результате секвенирования (число экзонов, интронов, минимальные длины, медианные значения и много чего еще)
GCF_009873245.2_mBalMus1.pri.v3_assembly_report.txt общая информация (организм, название проекта, методы сборки и секвенирования,...) и описание элементов, вошедших в сборку (длина, расположение, номера в GenBank и RefSeq, ...)
GCF_009873245.2_mBalMus1.pri.v3_assembly_stats.txtописнаие каждой хромосомы из сборки (длина, число пропусков, значения N50, число скаффолдов, ...)
GCF_009873245.2_mBalMus1.pri.v3_cds_from_genomic.fna.gzкодируемые участки в ДНК
GCF_009873245.2_mBalMus1.pri.v3_feature_count.txt.gzкол-во каждого типа особенности
GCF_009873245.2_mBalMus1.pri.v3_feature_table.txt.gzТаблица особенностей
GCF_009873245.2_mBalMus1.pri.v3_genomic.fna.gzПоследовательность генома
GCF_009873245.2_mBalMus1.pri.v3_genomic.gbff.gzпоследовательности генома + описание каждого контига, структура каждого гена подробно описана
GCF_009873245.2_mBalMus1.pri.v3_genomic.gff.gzописание генов внутри каждой хромосомы и их структуры (учатски экзонов, CDS, что кодируют, ..) + идентификационные номера
GCF_009873245.2_mBalMus1.pri.v3_genomic.gtf.gzпохожая таблица, но тут еще приводятся докозательства того, что последовательности получены правильно
GCF_009873245.2_mBalMus1.pri.v3_genomic_gaps.txt.gzописание гэпов в последовательностях (границы, длина, тип и док-во, видимо, того, что этот гэп, действительно, отсюда)
GCF_009873245.2_mBalMus1.pri.v3_protein.faa.gzпоследовательности протеома
GCF_009873245.2_mBalMus1.pri.v3_protein.gpff.gzтаблица особенностей для белков
GCF_009873245.2_mBalMus1.pri.v3_pseudo_without_product.fna.gzпоследовательности псевдогенов
GCF_009873245.2_mBalMus1.pri.v3_rm.out.gzсводная таблица по повторам
GCF_009873245.2_mBalMus1.pri.v3_rm.runотчет программы RepeatMasker, которая находит в последовательности повторы характерные для предков или всех организмов, конкретного вида и определенной ветки
GCF_009873245.2_mBalMus1.pri.v3_rna.fna.gzпоследовательность транскриптома*
GCF_009873245.2_mBalMus1.pri.v3_rna.gbff.gzтаблица особенностей мРНК
GCF_009873245.2_mBalMus1.pri.v3_rna_from_genomic.fna.gzпоследовательности учатсков генома, кодирующих мРНК
GCF_009873245.2_mBalMus1.pri.v3_translated_cds.faa.gzпоследовательности, полученные трансляцией CDS
README.txtинформация о файлах, которые есть в сборке (never too late...)
README_Balaenoptera_musculus_annotation_release_100информация про аннотацию (дата, авторы, идентификационные номера
annotation_hashes.txtсводка дат внесения каких-то изменений в аннотацию
assembly_status.txtстатус версии аннотации
md5checksums.txtконтрольные суммы для каждого файла

*показательно, кстати, что файл с геномом весит 716 МB, а с транскриптомом - 30

График

График я ограничил 30-ю первыми скаффолдами, так как дальше уже были совсеми маленькие элементы, которые только уменьшали масштаб графика

Длины скаффолдов
Рис 2. Длины скаффолдов сборки, оранжевый столбец соответсвует N50(110,3 Мб) и L50(9)

График получен с помощью этого скрипта (не знаю, верным ли было решение использовать altair, но что сделано, то сделано...)

Геном органелл

В этой сборке есть геном митохондрии - обнаружил я это просто пролистав список хромосом, включенных в сборку. Последняя оказалась с названием MT. На наличие дополнительного генома так же указывает то, что в описании сборки указаны 105 скаффолдов, из которых она собрана, но файл генома (FASTA) содержит в себе 106 записей

Идентификатор записи Тип органеллы Число кодирующих последовательностей (CDS) Число генов рРНК Число генов тРНК Число псевдогенов
NC_001601.1Митохондрия132440