Практикум 7

Для выполнения практическрй работы №7 была выбрана сборка генома головастой морской черепахи (лат. Caretta caretta).

Рис. 1 Головастая морская черепаха

Идентификатор GenBank Идентификатор RefSeq Уровень сборки Размер генома, п.н. Число контигов N50 контигов*, п.н. L50 контигов** Число скэффолдов N50 скэффолдов*, п.н. L50 скэффолдов** Число хромосом
GCA_965140235.1 GCF_965140235.1 Chromosome 2.2*10^9 97 124.3*10^6 7 36 137.5*10^6 5 28
Таблица 1. Некоторые характеристики сборки генома Caretta caretta

N50 — это "вес" сборки. Это длина самого короткого фрагмента (контига или скаффолда) в наборе самых крупных фрагментов, которые в сумме покрывают 50% генома.

L50 — это "количество" сборки. Это минимальное число самых крупных фрагментов (контигов или скаффолдов), которые в сумме покрывают 50% генома.

Работа с поисковыми системами ENA и NCBI

Был выбран Hemoglobin. По запросу Hemoglobin[title] в NCBI nucleotide было получено 41 333 записи.

NCBI

Из них 11 313 посвящено генам и 28 807 мРНК. 30 565 записей из базы GenBank и 10 766 записей из базы RefSeq.

Введем запрос Hemoglobin[title] AND Human[Organism] и посмотрим записи, описывающие последовтельности человека.

Всего было найдено 14738 записей. Из них 5 310 относятся к генам, 9 409 - к мРНК, 14 715 из базы GenBank и 23 из RefSeq.

Чтобы выяснить все ли записи действительно содержат последовательности, кодирующие белки с соответствующей функцией, были введены запросы: Hemoglobin[title] AND pseudogene (68 записей) и Hemoglobin[title] AND pseudogene AND Human[Organism] (9 записей).

ENA

Посмотрим на количество записей в ENA. Запрос tax_eq(9606) AND description="Hemoglobin" AND mol_type="mrna" выдал 9390 результатов, а запрос tax_eq(9606) AND description="Hemoglobin" AND mol_type="genomic dna" - 1246 результатов.