В данном практикуме будет рассмотрена сборка генома Афалины, или большого бутылконосого дельфина (лат.
Tursiops truncatus, что в переводе означает "похожий на дельфина")
(см. Рис 1). Я выбрала данный организм, потому что дельфины считаются уникальными животными: они отличаются высоким интеллектом среди всех животных; их интеллект сравним с таковым для приматов. Эти водные млекопитающие также могут плавать с большой скоростью, а еще имеют острые зрение и слух и многие другие выдающиеся отличительные черты. В общем, дельфины - интересный объект для изучения. К сожалению, самих афалин на земле осталось не так уж и много: всего 600.000 особей, а распространены они, в основном, в умеренных и теплых водах мирового океана.
Рисунок 1.Бутылконосый дельфин/Афалина.
Мне хотелось работать с геномами представителей непосредственно семейства дельфиновых, поэтому при формировании запроса в поисковой сроке базы данных
NCBI, разделе
Genome, я производила поиск по латинскому названию
Tursiops (перевод выше), после чего мне было предложено уточнение запроса в виде "Tursiops truncatus (common bottlenose dolphin)". Далее из 7 предложенных геномов я выбрала единственный аннотированный в версии
RefSeq и имеющий качество сборки на уровне
cromosome. Это означает, что геном, скорее всего, полностью секвенирован и не содержит гэпов, либо хроосомы содержат так называемые "скэффолды" и "контиги" с гэпами между ними, либо же вовсе иметь необозначенные скэффолды. У Афалин 23 хромосомы в гаплоидном наборе. По запросу были найдены также другие данные, характеризующие сборку генома. Они представлены в
Таблице 1.
Таблица 1.Характеристики сборки.
Из таблицы видно, что скэффолдам и контигам соответствуют параметры L50 и N50. Это означает, что для каждого вида участков генома параметр L характеризует число единиц генома, в котрых содержится 50% нуклеотидов сборки. Параметр N характеризует длину наименьшей из этих единиц. То есть, в данном геноме выявлен 361 скэффолд: из них 9 содержат 50% сборки генома, минимальная длина скэффолда - 108.4 Mb. Аналогично для контигов: всего - 1035, из них в 72 содержится 50% сборки, минимальная длина одного контига - 9.7 Mb. Данные версий RefSeq и GenBank идентичны друг другу, что может говорить о качестве сборки генома.
Информация о сборке генома mTurTru1.mat.Y
GCF_011762595.1_mTurTru1.mat.Y_protein.faa - файл с последовательностями белков (FASTA)
GCF_011762595.1_mTurTru1.mat.Y_genomic.gbff - файл последовательности генома с аннотацией (GBFF)
GCF_011762595.1_mTurTru1.mat.Y_genomic.fna - файл с нуклеотидными последоватлеьностями генома (FASTA)