Практикум 7

Для задания был выбран организм: домашняя лошадь

Латинское название: Equus caballus

Английское название: Domestic horse

Параметр Значение
Идентификатор GenBank GCA_041296265.1
Идентификатор RefSeq GCF_041296265.1
Уровень сборки генома Chromosome
Общий размер генома (п.н.) 2.8 Gb
Число фрагментов генома в сборке контигов - 629, скэффолдов - 624
Параметр Scaffold N50 99.2 Mb
Параметр Scaffold L50 12
Параметр Contig N50 99.2 Mb
Параметр Contig L50 12

N50 - длина самого короткого контига/скэффолда в наборе, который охватывает 50% от общего размера генома. Чем выше N50, тем лучше качество сборки.

L50 - количество контигов/скэффолдов, суммарная длина которых составляет 50% от общего размера генома. Чем меньше L50, тем лучше качество сборки.

Знакомство с поисковыми системами ENA и NCBI

Для анализа был выбран белок коллаген - фибриллярный белок, составляющий основу соединительной ткани организма.

Для поиска в NCBI я использовала Advanced Search в базе данных Nucleotide:

Параметр поиска Количество записей
Все записи с "collagen" в названии 162945
Записи из GenBank 22144
Записи из RefSeq 140784
Записи для человека (Homo sapiens) 4062
мРНК из RefSeq для человека 696
DNA/RNA из RefSeq для человека 43
мРНК из GenBank для человека 2476
DNA/RNA из GenBank для человека 741

Чтобы проверить, что эти записи содержат последолвательности, кодирующие белки с соответсвующей функцией, был сделан запрос: collagen[Title] AND (Homo sapiens[Organism]) NOT (predicted[Title])

Результат: 3446 (сократилось на 616)

Поиск в ENA

Также использовался Advanced Search

Тип последовательности Поисковый запрос Количество записей
мРНК человека tax_eq(9606) AND description="Collagen" AND mol_type="mRNA" 2557
Геномная ДНК человека tax_eq(9606) AND description="Collagen" AND mol_type="genomic DNA" 294

Сравнение поисковых систем

Количество записей в NCBI и ENA очень сильно различается. NCBI проще, а ENA обладает удобными подсказками при составлении запросов.