Для практикума был выбран Индийский слон (Indian elephant) или же Elephas maximus.
Индийский слон, или азиатский слон, является одним из самых крупных наземных млекопитающих и представляет собой важный вид в экосистемах Южной и Юго-Восточной Азии. Слоны социальные и живут группами, которые возглавляет самки. Индийские слоны обладают высоким уровнем интеллекта и способны к сложным формам коммуникации, используя звуки, жесты и позы хоботом. Они также известны своей способностью плавать и преодолевать заболоченные местности. Классифицируется как находящийся под угрозой исчезновения.
Диплоидное число хромосом у индийских слонов составляет 2n = 56, включая 54 аутосомы и 2 половые хромосомы.
По поисковому запросу "Elephas maximus" было найдено 12 сборок, была выбрана референсная c аннотацией в RefSeq.
Данная сборка оказалось референсной (сборка обработана вручную, является качественной, вызывает доверие). Уровень сборки chromosome, что означает, что последовательность ДНК организма была собрана и упорядочена таким образом, что её можно представить на уровне отдельных хромосом (одной или нескольких).
Таблица 1.
Идентификатор GenBank | Идентификатор RefSeq | Общий размер генома | Scaffold N50* | Scaffold L50** | Contig N50 | Contig L50 |
---|---|---|---|---|---|---|
GCA_024166365.1 | GCF_024166365.1 | 3.4 Gb | 127.4 Mb | 10 | 88 Mb | 13 |
Contig N50: это длина самого короткого контига, из контигов (минимального числа), где общая сумма длин составляет 50% от общего числа нуклеотидов в сборке.
Contig L50: наименьшее число контигов, в которых содержится 50% всех нуклеотидов сборки.
Аналогично для Scaffold.
Есть сомнения, что данная сборка точно отражает биологическую информацию о геноме Индийского слона. В аннотации RefSeq к сборке указано число хромосом в гаплоидном наборе равное 29. В то время как в статье
Таблица 2.
Файл | Название файла | Содержание файла |
---|---|---|
Нуклеотидные последовательности генома (FASTA) | GCF_024166365.1_mEleMax1_primary_haplotype_genomic.fna | Файл содержит сплошную нуклеотидную последовательность нуклеотидов в разном регистрею |
Последовательности белков (FASTA) | GCF_024166365.1_mEleMax1_primary_haplotype_protein.faa | Файл содержит последовательности белков в формате FASTA |
Последовательности генома с аннотацией (GBFF) | GCF_024166365.1_mEleMax1_primary_haplotype_genomic.gbff | Файл содержит общую информацию о сборке генома, последовательности и аннотации к ним |