Практикум №7: Анализ геномной сборки эукариотического организма
Выбор организма и поиск сборки
Для выполнения задания был выбран организм: Немецкая овчарка.
Латинское название: Canis lupus familiaris
Английское название: German Shepherd Dog.
| Идентификатор GenBank | GCA_011100685.1 |
|---|---|
| Идентификатор RefSeq | GCF_011100685.1 |
| Уровень сборки генома | Chromosome |
| Общий размер генома (п.н.) | 2 481 983 352 |
| Число фрагментов генома в сборке | 2197 |
| Параметр Scaffold N50 | 64 299 765 |
| Параметр Scaffold L50 | 15 |
| Параметр Contig N50 | 14 840 767 |
| Параметр Contig L50 | 57 |
N50 — минимальная длина фрагмента, такой что сумма фрагментов этой длины и длиннее покрывает ≥50% генома. L50 — минимальное число фрагментов длиной ≥N50, необходимое для покрытия 50% генома.
С NCBI получены файлы для дальнейшего анализа:
- FASTA (геном):
- FASTA (белки):
- GBFF (геном с аннотацией):
Поисковые системы ENA и NCBI
Выбран популярный белок: Collagen (коллаген).
NCBI
При помощи Advanced Search на сайте NCBI были найдены следующие значения:
Поиск сколько записей нуклеотидных баз данных посвящено генам и мРНК белков с таким словом в названии: collagen[title]
Количество записей: 162945
Из GenBank: 22,144
Из RefSeq: 140,784
Суммарное количество записей, описывающих последовательности человека: 4062
мРНК из RefSeq: 696
DNA/RNA из RefSeq: 43
мРНК из GenBank: 2 476
DNA/RNA из GenBank: 741
Чтобы проерить, действительно ли все эти записи содержат последовательности, кодирующие белки с соответствующей функцией, попробуем ввести запрос collagen[Title] AND (Homo sapiens[Organism]) NOT (predicted[Title])
Видно, что выдача сократилась до 3446, что позволяет сделать вывод о том, что далеко не каждая запись на самом деле содержит нужную нам последовательность.
ENA
Пользуясь Advanced Search на сайте ENA, было определено:
- Количество записей, описывающих мРНК, чье имя содержит выбранное слово:
Запрос: tax_eq(9606) AND description="Collagen" AND mol_type="mRNA"
Выдача: 2557 результатов
- Количество записей, описывающих гены белко человека, чье имя содержит выбранное слово:
Запрос: tax_eq(9606) AND description="Collagen" AND mol_type="genomic DNA"
Выдача: 294 результата