Практикум №7. Нуклеотидные банки данных

Исследуемый организм

В качестве анализируемого организма был выбран Acropora millepora - широко распространённый вид в тропических морях Индийского и Тихого океанов, образующий красивые ветвистые колонии ярко-красного, оранжевого или жёлтого цвета.

Характеристика геномной сборки

В таблице 1 указаны некоторые характеристики геномной сборки анализируемого организма:

Параметр Информация
NCBI RefSeq assembly GCF_013753865.1
Submitted GenBank assembly GCA_013753865.1
Уровень сборки генома Chromosome
Общий размер генома 475.4 Mb
Число фрагментов генома в сборке 14
Scaffold N50 19.8 Mb
Scaffold L50 9
Contig N50 1.1 Mb
Contig L50 129

Таб. 1 Описание

Scaffold N50 — минимальный размер scaffold, при котором половина общего размера генома представлена последовательностями длиной равной или большей, чем этот показатель.

Scaffold L50 — это минимальное число scaffolds, длина которых составляет ровно половину всей собранной последовательности генома.

Contig N50 — это минимальная длина контига, такая, что половинный объем генома представлен фрагментами равными или большими, чем эта длина.

Contig L50 — количество контигов, которое необходимо выбрать, чтобы покрыть половину длины генома.

Поисковые системы NCBI и ENA

Для поиска был выбран белок Superoxide dismutase (SOD) — фермент, нейтрализующий свободные радикалы кислорода..

Для поиска в базе данных nucleotide на сайте NCBI был отправлен следующий запрос:

Superoxide dismutase[Title]

Среди записей было 18735 мРНК и 12064 ДНК.

Далее был введён дополнительный фильтр на человеческие белки:

(Superoxide dismutase[Title]) AND (Homo sapiens[Organism])

Для GenBank: мРНК(716) и ДНК(52).

Для RefSeq: мРНК(8) и ДНК(12).

Так же было установлено количество записей на сайте ENA, для чего были заданы следующие запросы:

tax_eq(9606) AND description="Superoxide dismutase" AND mol_type="mRNA"

tax_eq(9606) AND description="Superoxide dismutase" AND mol_type="genomic dna"

Первый запрос выдал 719 записей, второй 42.