Изначально я хотела выбрать енота-полоскуна, но нормальных сборок его генома я не нашла, поэтому я решила сделать запрос "Carnivora(Хищные)". Было получено 237 записей, и из я решила выбрать гепарда Acinonyx jubatus (cheetah). Потом я ввела запрос "cheetah", выдало 3 сборки. Только одна из них была аннотирована, я ее и выбрала. Хромосомный ровень сборки. Всего у гепарда 19 хромосом (гаплоидный набор).
Информация о сборке представлена в Таблице 1.
Идентификатор GenBank | Идентификатор RefSeq | Общий размер генома | Scaffold N50 | Scaffold L50 | Contig N50 | Contig L50 | Количество скаффолдов | Количество контигов | Количество хромосом |
---|---|---|---|---|---|---|---|---|---|
GCA_027475565.2 | GCF_027475565.1 | 2370952514 | 144.4 Mb | 7 | 96.8 Mb | 9 | 195 | 217 | 19 |
Scaffold N50 и Scaffold L50: в 7 скаффолдах содержится 50% всех нуклеотидов генома, 144,4 Mb - размер наименьшего скаффолда из этих 7. Для контигов аналогично.
Согласно BUSCO геном имеет полноту 98.1%, также сборка аннотирована. Поэтому я считаю, что этим данным можно доверять. Количество хромосом в сборке (19-гаплоидный набор) совпадает с литературными данными (Википедия)
Нуклеотидные последовательности генома (в формате FASTA): GCF_027475565.1_VMU_Ajub_asm_v1.0_genomic.fna - в файле лежат нуклеотидные последовательности всех хромосом гепарда в fasta-формате.
Последовательности белков (в формате FASTA): GCF_027475565.1_VMU_Ajub_asm_v1.0_protein.faa - в файле лежат белковые последовательности всех белков гепарда в fasta-формате.
Последовательности генома с аннотацией (GBFF): GCF_027475565.1_VMU_Ajub_asm_v1.0_genomic.gbff - файл имеет следующую структру: «Шапка» несет информацию об общих свойствах записи (уникальный идентификатор, название организма, краткое описание записи (что представлено)), затем идет аннотация участков (CDS, разные РНК), далее идет сама последовательность.