Нуклеотидные банки данных

Задание 1

Я выбрала милейшее нежнейшее животное - песца (или арктическая лиса). Латинское название: Vulpes lagopus. Выбрала именно песца я потому, что [геномы мемных животных (голого землекопа, шакала, рыбы капли и тд) не подходят по условиям] это животное чрезвычайно красивое. Песцы живут в тундре и лесотундре (большая часть певцов живет в России), а в таких суровых условиях они чувствуют себя очень комфортно вплоть до -70! Еще песцы очень социальные: все время, кроме зимы, они ходят парами; самец ухаживает за беременной самкой; а если так получилось, что детеныш остался без присмотра родителей, то другие песцы "усыновляют" его. А как они заливаются смехом... Несколько фоточек!!!

зевает <з
бежит по делам (деловая колбаса)
играют

У песца 48-50 хромосом

Опишем геном:
Запрос: Vulpes lagopus
Количество найденных сборок: 4
Уровень сборки: Chromosome (то есть последовательность 1 или нескольких хромосом (причем хромосома может быть полностью отсеквенирована без гэпов/с скаффолдами/с контигами и гэпами между ними)
Какая сборка? Референсная (то есть эта сборка генома отобрана вручную как точная/качественная, NCBI признали ее стандартной в сравнении с остальными сборками)

Задание 2

Таблица 1.Сравненине вторичной структуры тРНК из файла 2dlc.pdb
Идентификатор GenBank Идентификатор RefSeq Общий размер генома Scaffold N50 Scaffold L50 Contig N50 Contig L50
GCA_018345385.1 GCF_018345385.1 2,346 Mb 131.5 Mb 8 33.5 Mb 24

Объяснения к таблице:

Contig N50 = 131.5 Mb: длина контига, для которого 50% всех нуклеотидов сборки содежится в контигах такой и большей длины (то есть длина минимального контига из "списка L50") = 131.5 Mb

Contig L50 = 8: Наименьшее число контигов, в которых содержится 50% всех нуклеотидов сборки (то есть суммарная длина хотя 50%) = 8

Аналогично для Scaffold

Задание 3

файлы скачала
GCF_018345385.1_ASM1834538v1_protein.faa - последовательности белков в формате FASTA
GCF_018345385.1_ASM1834538v1_genomic.fna - последовательности ДНК генома в формате FASTA
GCF_018345385.1_ASM1834538v1_genomic.gbff - Аннотированный геном

Задание 4

Файлов много. Те, которые не описаны выше:
GCF_018345385.1_ASM1834538v1_assembly_report.txt - информация о сборке
GCF_018345385.1_ASM1834538v1_cds_from_genomic.fna - FASTA формат белок-кодирующих генов
GCF_018345385.1_ASM1834538v1_feature_table.txt - таблица особенностей
GCF_018345385.1_ASM1834538v1_genomic.gff - примечания к аннотации
GCF_018345385.1_ASM1834538v1_genomic.gtf - примечания к аннотации в виде таблицы
GCF_018345385.1_ASM1834538v1_genomic_gaps.txt - гэпы в геноме (старт гэпа, конец гэпа, длина гэпа)
GCF_018345385.1_ASM1834538v1_pseudo_without_product.fna - FASTA формат псевдогенов
GCF_018345385.1_ASM1834538v1_rna.gbff - аннотированные транскрипты
GCF_018345385.1_ASM1834538v1_rna_from_genomic.fna - транскрипты генома
GCF_018345385.1_ASM1834538v1_translated_cds.faa - FASTA формат белков

Задание 6

В конце файла GCF_018345385.1_ASM1834538v1_genomic.gbff находится митохондриальный геном.
ACCESSION NC_026529
Органелла: Митохондрия
Число CDS: 13
Число генов рРНК: 3
Число генов тРНК: 22
Число псевдогенов: 0