Для выполнения практическрй работы №7 была выбрана сборка генома головастой морской черепахи (лат. Caretta caretta).
| Идентификатор GenBank | Идентификатор RefSeq | Уровень сборки | Размер генома, п.н. | Число контигов | N50 контигов*, п.н. | L50 контигов** | Число скэффолдов | N50 скэффолдов*, п.н. | L50 скэффолдов** | Число хромосом |
| GCA_965140235.1 | GCF_965140235.1 | Chromosome | 2.2*10^9 | 97 | 124.3*10^6 | 7 | 36 | 137.5*10^6 | 5 | 28 |
N50 — это "вес" сборки. Это длина самого короткого фрагмента (контига или скаффолда) в наборе самых крупных фрагментов, которые в сумме покрывают 50% генома.
L50 — это "количество" сборки. Это минимальное число самых крупных фрагментов (контигов или скаффолдов), которые в сумме покрывают 50% генома.
Был выбран Hemoglobin. По запросу Hemoglobin[title] в NCBI nucleotide было получено 41 333 записи.
Из них 11 313 посвящено генам и 28 807 мРНК. 30 565 записей из базы GenBank и 10 766 записей из базы RefSeq.
Введем запрос Hemoglobin[title] AND Human[Organism] и посмотрим записи, описывающие последовтельности человека.
Всего было найдено 14738 записей. Из них 5 310 относятся к генам, 9 409 - к мРНК, 14 715 из базы GenBank и 23 из RefSeq.
Чтобы выяснить все ли записи действительно содержат последовательности, кодирующие белки с соответствующей функцией, были введены запросы: Hemoglobin[title] AND pseudogene (68 записей) и Hemoglobin[title] AND pseudogene AND Human[Organism] (9 записей).
Посмотрим на количество записей в ENA. Запрос tax_eq(9606) AND description="Hemoglobin" AND mol_type="mrna" выдал 9390 результатов, а запрос tax_eq(9606) AND description="Hemoglobin" AND mol_type="genomic dna" - 1246 результатов.