Выбор сборки генома эукариотического организма

В данном практикуме будет рассмотрена сборка генома Афалины, или большого бутылконосого дельфина (лат. Tursiops truncatus, что в переводе означает "похожий на дельфина") (см. Рис 1). Я выбрала данный организм, потому что дельфины считаются уникальными животными: они отличаются высоким интеллектом среди всех животных; их интеллект сравним с таковым для приматов. Эти водные млекопитающие также могут плавать с большой скоростью, а еще имеют острые зрение и слух и многие другие выдающиеся отличительные черты. В общем, дельфины - интересный объект для изучения. К сожалению, самих афалин на земле осталось не так уж и много: всего 600.000 особей, а распространены они, в основном, в умеренных и теплых водах мирового океана.
photo

Рисунок 1.Бутылконосый дельфин/Афалина.

Мне хотелось работать с геномами представителей непосредственно семейства дельфиновых, поэтому при формировании запроса в поисковой сроке базы данных NCBI, разделе Genome, я производила поиск по латинскому названию Tursiops (перевод выше), после чего мне было предложено уточнение запроса в виде "Tursiops truncatus (common bottlenose dolphin)". Далее из 7 предложенных геномов я выбрала единственный аннотированный в версии RefSeq и имеющий качество сборки на уровне cromosome. Это означает, что геном, скорее всего, полностью секвенирован и не содержит гэпов, либо хроосомы содержат так называемые "скэффолды" и "контиги" с гэпами между ними, либо же вовсе иметь необозначенные скэффолды. У Афалин 23 хромосомы в гаплоидном наборе. По запросу были найдены также другие данные, характеризующие сборку генома. Они представлены в Таблице 1.

Таблица 1.Характеристики сборки.

photo
Из таблицы видно, что скэффолдам и контигам соответствуют параметры L50 и N50. Это означает, что для каждого вида участков генома параметр L характеризует число единиц генома, в котрых содержится 50% нуклеотидов сборки. Параметр N характеризует длину наименьшей из этих единиц. То есть, в данном геноме выявлен 361 скэффолд: из них 9 содержат 50% сборки генома, минимальная длина скэффолда - 108.4 Mb. Аналогично для контигов: всего - 1035, из них в 72 содержится 50% сборки, минимальная длина одного контига - 9.7 Mb. Данные версий RefSeq и GenBank идентичны друг другу, что может говорить о качестве сборки генома.

Информация о сборке генома mTurTru1.mat.Y

GCF_011762595.1_mTurTru1.mat.Y_protein.faa - файл с последовательностями белков (FASTA)

GCF_011762595.1_mTurTru1.mat.Y_genomic.gbff - файл последовательности генома с аннотацией (GBFF)

GCF_011762595.1_mTurTru1.mat.Y_genomic.fna - файл с нуклеотидными последоватлеьностями генома (FASTA)

Источники

1. Изображение афалины. URL: https://ru.wikipedia.org/wiki/%D0%90%D1%84%D0%B0%D0%BB%D0%B8%D0%BD%D0%B0