Для выполнения задания я выбрал синего кита (англ. blue whale, лат. Balaenoptera musculus). В NCBI Datasets нашлась референсная сборка генома, которая аннотированные гены и имеет качество "Chromosome".
| Параметр | Значение |
|---|---|
| GenBank Accession | GCA_009873245.3 |
| RefSeq Accession | GCF_009873245.2 (sequences differ from GenBank assembly) |
| Уровень сборки | Chromosome |
| Размер генома | 2.4 Gb |
| Количество контigов | 972 |
| Scaffold N50 | 110.3 Mb |
| Scaffold L50 | 9 |
| Contig N50 | 6.3 Mb |
| Contig L50 | 103 |
Контиг - непрерывная последовательность нуклеотидов ДНК, собранная из ридингов.
Скаффолд - последовательность, состоящая из нескольких сшитых контигов, между которыми стоят N-нуклеотиды.
N50 Contig(Scaffold) - такая длина контига(скаффолда), в которой содержится 50% всех нуклеотидов сборки
L50 Contig(Scaffold) - такое количество контигов(скаффолдов), в которой содержится 50% всех нуклеотидов сборки
Я ввел insulin[Title] и выдало 45020 записей, 4129 из которых по ДНК, 36529 - по мРНК, 12747 записей принадлежит GenBank, 32270 - RefSeq. Затем я ввел (insulin[Title]) AND "homo sapiens"[Organism], по такому запросу выдало 5609 записей: 1472 по ДНК, 4093 по мРНК, 5355 из GenBank, 254 из RefSeq.
В ENA по запросу tax_eq(9606) AND description="insulin" выдало 9341 записей: 157 по ДНК(tax_eq(9606) AND description="insulin" AND mol_type="genomic dna" - запрос), 7185 по мРНК (tax_eq(9606) AND description="insulin" AND mol_type="mrna" - запрос)