Лошадь домашняя (Equus caballus) - имеет 2n набор из 64 хромосом (источник)
Изначально я искал Гибискус сирийский - так как он является символом культуры в Азии, даже имеет название, похожее на слово "культура" - "мугунхва". Однако у него не было файлов с последовательностями белков, поэтому я решил поменять свой выбор, но уже на животное, и выбрал лошадь.
В качестве поискового запроса я ввел название домашней лошади на латинском языке: Equus caballus.
Всего выдалось 11 геномов, однако только одна сборка имела качество сборки выше chromosome.
Качество выбранной мною сборки - chromosome. Это значит, что в базе существует собранная последовательность хотя бы одной хромосомы. Последовательность хромосом могут быть собраны без гэпов или представлять собой скаффолды или контиги, соединённые ими. Возможно наличие нелокализованных скаффолдов.
Данная сборка выбрана референсной. Это означает, что она была вручную выбрана как сборка высокого качества, которую можно применять как стандарт.
N50 - длина контига или скаффолда, для которой 50% всех нуклеотидов сборки содержатся в контигах или скаффолдах такой же и большей длины. При этом вместо 50 может быть и другое число.
L50 - наименьшее число контигов или скаффолдов, в которых содержится как минимум 50% всех нуклеотидов сборки. При этом вместо 50 может быть и другое число.
Для дальнейшей работы я скачал три файла:
GCF_002863925.1_EquCab3.0_protein.faa.gz - последовательности белков в fasta
GCF_002863925.1_EquCab3.0_genomic.fna.gz - последовательности генома в fasta
GCF_002863925.1_EquCab3.0_genomic.gbff.gz - последовательности генома с аннотацией
Идентификатор GenBank | GCA_002863925.1 |
---|---|
Идентификатор RefSeq | GCF_002863925.1 |
Общий размер генома | 2,5 млрд. п.о. |
N50 скаффолдов | 87,2 млн. п.о. |
L50 скаффолдов | 12 |
N50 контигов | 1,5 млн п.о. |
L50 контигов | 462 |