Капибара (лат. Hydrochoerus hydrochaeris), она же водосвинка, это представитель рода водосвинок. Обитает она на территориях Южной Америки, ведет полуводный образ жизни, в группах из 10-20 особей. Является самым крупным грызуном на данный момент.
Почему капибары - они класные (можно еще на бэкграунд моего сайта посмотреть). Большие и спокойные, а главное для задание - эукариоты. Правда практического применения у них все же нет - разве что пользоваться тем, что католическая церковь признала их мясо рыбой (но какой садист будет есть этих милах).
Найти геномы было несложно - из всего рода водосвинок секвенировали только капибар, геномов малых водосвинок на ncbi нет. Выбор генома был не сложен - лишь один из них имел уровень сборки chromosome (была собрана хотя бы одна хромосома), остальные лишь на уровне scaffold (часть контигов уже объединили в скэфолды, но не более), даже референсный. А значит вручную выбранный ncbi геном не подходит, ведь собран на недостаточном уровне, а репрезентативной быть не может - выбирать не из чего, референсная всего одна.
Идентификатор GenBank: GCA_015741225.1
Идентификатор RefSeq: отсутсвует
Общий размер генома: 2.6 Gb
N50 и L50: 78.8 kb и 8795 (я настолько привык к тому, что именно точка ставится в дробных числах, что не заметил запятой)
N50 - длина контига, для которого 50% всех нуклеотидов сборки содержится в контигах такой и большей длины
L50 - наименьшее число контигов, которые могут составить 50% всей сборки
Не лучшее качество сборки начинает себя показывать, ведь аннотации никакой нет. Единственный файл был с последовательностью нуклеотидов. Так что для выполнение дополнительных заданий я буду использовать нового эукариота.
Кошка домашняя (лат. Felis catus) - в представлении не нуждается. Практическая польза, конечно, побольше чем у капибары - кошка может ловить мелких грызунов, защищая провизию. Но будем честны, их заводят только потому что они милые, ведь у большинства нет проблем с мышами в квартире.
Так же подробно описывать процесс выбора уже не буду, выбрал референсный геном с уровнем сборки chromosome (GenBank ID: GCA_018350175.1).
GCA_018350175.1_F.catus_Fca126_mat1.0_genomic.fna - геномная последовательность, в двух экземплярах
genomic.gtf - примечание к аннотации
genomic.gff - примечание к аннотации (видимо в двух разных типах файлов)
genomic.gbff - последовательности генома с аннотацией
rna.fna - транскрипты
protein.faa - последовательности белков
cds_from_genomic.fna - кодирующие последовательности
sequence_report.jsonl - доклад о последовательности, в двух экземплярах
P.S. В двух экземплярах значит, что в скачанном zip файле было несколько одинаковых файлов.
У кошки есть митохондриальная хромосома, что не удивительно. Кошка фотосинтерзировать (вроде) не умеет, так что отсутсвие хлоропласта не удивляет.
ACCESSION: U20753
Organelle: mitochondrion
CDS: 13
rRNA: 2
tRNA: 22
pseudogenes: 0