Геномные сборки

Выбранный организм: Ostreococcus lucimarinus

В базе данных NCBI Datasets выбрала сборку, аннотированную RefSeq. В таблице ниже представлены некоторые характеристики этой сборки.

Ссылка на сборку

Идентификатор GenBank GCA_000092065.1
Идентификатор RefSeq GCF_000092065.1
Уровень сборки генома Complete Genome
Общий размер генома (п.н.) 13.2 Mb
Число скэффолдов21
Число контигов21
Scaffold N50 708.9 kb
Scaffold L50 8
Contig N50 708.9 kb
Contig L50 8

N50 - длина такого контига/скэффолда, что в контигах такой же или большей длинны в общем содержится половина всех нуклеотидов сборки.
L50 - минимальное число контигов/скэффолдов, необходимое для покрытия 50% нуклеотидов сборки.

Для скачивания файлов была использована команда:

datasets download genome accession GCA_000092065.1 --include gbff,protein,genome

Знакомство с поисковыми системами

Для выполнения задания я выбрала белок кератин (keratin).

Всего записей нуклеотидных баз данных посвящено генам и мРНК белков с таким словом в названии:
genomic DNA: 967, из них человеческие: 381
mRNA: 65621, из них человеческие: 4032
RefSeq: 54263, из них человеческие: 4057
GenBank: 12693, из них человеческие: 509

Если в поиске указать (keratin[Title]) NOT keratin binding protein[Title], то число ДНК не изменится, а число белков станет меньше всего лишь на 3.

В базе данных ENA 12210 записей мРНК, содержащих keratin, 133 записи genomic DNA у человека.