Практикум №7: Анализ геномной сборки эукариотического организма

Выбор организма и поиск сборки

Для выполнения задания был выбран организм: Немецкая овчарка.

Латинское название: Canis lupus familiaris

Английское название: German Shepherd Dog.

Таблица 1. Характеристика выбранной сборки
Идентификатор GenBank GCA_011100685.1
Идентификатор RefSeq GCF_011100685.1
Уровень сборки генома Chromosome
Общий размер генома (п.н.) 2 481 983 352
Число фрагментов генома в сборке 2197
Параметр Scaffold N50 64 299 765
Параметр Scaffold L50 15
Параметр Contig N50 14 840 767
Параметр Contig L50 57

N50 — минимальная длина фрагмента, такой что сумма фрагментов этой длины и длиннее покрывает ≥50% генома. L50 — минимальное число фрагментов длиной ≥N50, необходимое для покрытия 50% генома.

С NCBI получены файлы для дальнейшего анализа:

Поисковые системы ENA и NCBI

Выбран популярный белок: Collagen (коллаген).

NCBI

При помощи Advanced Search на сайте NCBI были найдены следующие значения:

Поиск сколько записей нуклеотидных баз данных посвящено генам и мРНК белков с таким словом в названии: collagen[title]

Количество записей: 162945

Из GenBank: 22,144

Из RefSeq: 140,784

Суммарное количество записей, описывающих последовательности человека: 4062

мРНК из RefSeq: 696

DNA/RNA из RefSeq: 43

мРНК из GenBank: 2 476

DNA/RNA из GenBank: 741

Чтобы проерить, действительно ли все эти записи содержат последовательности, кодирующие белки с соответствующей функцией, попробуем ввести запрос collagen[Title] AND (Homo sapiens[Organism]) NOT (predicted[Title])

Видно, что выдача сократилась до 3446, что позволяет сделать вывод о том, что далеко не каждая запись на самом деле содержит нужную нам последовательность.

ENA

Пользуясь Advanced Search на сайте ENA, было определено:

- Количество записей, описывающих мРНК, чье имя содержит выбранное слово:

Запрос: tax_eq(9606) AND description="Collagen" AND mol_type="mRNA"

Выдача: 2557 результатов

- Количество записей, описывающих гены белко человека, чье имя содержит выбранное слово:

Запрос: tax_eq(9606) AND description="Collagen" AND mol_type="genomic DNA"

Выдача: 294 результата