Седьмой практикум


Лошадь домашняя (Equus caballus) - имеет 2n набор из 64 хромосом (источник)

Изначально я искал Гибискус сирийский - так как он является символом культуры в Азии, даже имеет название, похожее на слово "культура" - "мугунхва". Однако у него не было файлов с последовательностями белков, поэтому я решил поменять свой выбор, но уже на животное, и выбрал лошадь.

В качестве поискового запроса я ввел название домашней лошади на латинском языке: Equus caballus.

Всего выдалось 11 геномов, однако только одна сборка имела качество сборки выше chromosome.

Качество выбранной мною сборки - chromosome. Это значит, что в базе существует собранная последовательность хотя бы одной хромосомы. Последовательность хромосом могут быть собраны без гэпов или представлять собой скаффолды или контиги, соединённые ими. Возможно наличие нелокализованных скаффолдов.

Данная сборка выбрана референсной. Это означает, что она была вручную выбрана как сборка высокого качества, которую можно применять как стандарт.

...
Лошадь домашняя

N50 - длина контига или скаффолда, для которой 50% всех нуклеотидов сборки содержатся в контигах или скаффолдах такой же и большей длины. При этом вместо 50 может быть и другое число.

L50 - наименьшее число контигов или скаффолдов, в которых содержится как минимум 50% всех нуклеотидов сборки. При этом вместо 50 может быть и другое число.

Для дальнейшей работы я скачал три файла:

GCF_002863925.1_EquCab3.0_protein.faa.gz - последовательности белков в fasta

GCF_002863925.1_EquCab3.0_genomic.fna.gz - последовательности генома в fasta

GCF_002863925.1_EquCab3.0_genomic.gbff.gz - последовательности генома с аннотацией

табл. Информация о сборке
Идентификатор GenBank GCA_002863925.1
Идентификатор RefSeq GCF_002863925.1
Общий размер генома 2,5 млрд. п.о.
N50 скаффолдов 87,2 млн. п.о.
L50 скаффолдов 12
N50 контигов 1,5 млн п.о.
L50 контигов 462