Выбранный организм: Ostreococcus lucimarinus
В базе данных NCBI Datasets выбрала сборку, аннотированную RefSeq. В таблице ниже представлены некоторые характеристики этой сборки.
| Идентификатор GenBank | GCA_000092065.1 |
| Идентификатор RefSeq | GCF_000092065.1 |
| Уровень сборки генома | Complete Genome |
| Общий размер генома (п.н.) | 13.2 Mb |
| Число скэффолдов | 21 |
| Число контигов | 21 |
| Scaffold N50 | 708.9 kb |
| Scaffold L50 | 8 |
| Contig N50 | 708.9 kb |
| Contig L50 | 8 |
N50 - длина такого контига/скэффолда, что в контигах такой же или большей длинны в общем содержится половина всех нуклеотидов сборки.
L50 - минимальное число контигов/скэффолдов, необходимое для покрытия 50% нуклеотидов сборки.
Для скачивания файлов была использована команда:
Для выполнения задания я выбрала белок кератин (keratin).
Всего записей нуклеотидных баз данных посвящено генам и мРНК белков с таким словом в названии:
genomic DNA: 967, из них человеческие: 381
mRNA: 65621, из них человеческие: 4032
RefSeq: 54263, из них человеческие: 4057
GenBank: 12693, из них человеческие: 509
Если в поиске указать (keratin[Title]) NOT keratin binding protein[Title], то число ДНК не изменится, а число белков станет меньше всего лишь на 3.
В базе данных ENA 12210 записей мРНК, содержащих keratin, 133 записи genomic DNA у человека.