Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2013

Базы данных в NCBI и идентификаторы записей

На сайте NCBI много разных баз молекулярно-биологических данных

Доступ к ним идет через единую поисковую систему Entez.

Нас касаются следующие базы данных.

БД нуклеоидных последовательностей (ДНК и РНК)

БД белковых последовательностей

БД генов в NCBI

GI (он же gi) - универсальный идентификатор последовательностей в NCBI

В NCBI каждой последовательности, нуклеотидной или белковой, присваивается номер GI, независимо от того, в какую базу данных она поступит - RefSeq, GenBank или еще какую.

Не привязан ни к какой БД.

Таблица 1. Префиксы идентификаторов `RefSeq`

Префикс

содержание

NC_XXXXXXX (XXXXXXX - какой-то номер)

полная последовательности какой-либо ДНК - хромосомы, плазмиды или др.

NM_XXXXXXX

полная последовательности мРНК

NP_XXXXXX

полная последовательность белка в белковой части БД

YP_XXXXXX

полная последовательность белка с неизвестной функцией в белковой части БД

Есть и другие префиксы идентификаторов записей `RefSeq`

Таблица 2. Некоторые поля записи в формате `GenBank` (.gbk)

В NCBIВ в этом формате хранятся все записи с последовательностями. Вот что нужно выучить сейчас. Пример взят из записи полной хромосомы.

уровень 1

уровень 2

уровень 3

что содержит

пример

LOCUS

идентификатор данной записи

AE004092

ACCESSION

2й идентификатор данной записи

AE004092

DEFINITION

описание данной записи

Streptococcus pyogenes M1 GAS, complete genome

SOURCE

чья последовательность - вид, штамм

Streptococcus pyogenes M1 GAS

ORGANISM

таксономия

Streptococcus pyogenes M1 GAS Bacteria; Firmicutes; Bacilli; Lactobacillales; Streptococcaceae; Streptococcus

FEATURES

информация, привязанная к определенному участку

FEATURES

gene

раздел относящийся к гену

complement(45123..46247)

\gene

короткое название гена

"rpoA"

\locus_tag

название участка; "код генома_номер п/п"; для прокариот участок обычно совпадает с геном

"SPy_0080"

CDS

раздел кодирующая последовательность гена; для прокариот границы обычно совпадают с границами гена

complement(45123..46247)

\product

название белка

"DNA-directed RNA polymerase alpha subunit"

\note

дополнительные сведения, иногда полезные

"The N-terminal amino acid sequence of this ORF has been determined from a spot isolated by 2-D gel electrophoresis from another strain of S. pyogenes...."

\protein_id

идентификатор последовательности белка в Protein БД

"AAK33208.1"

Название гена и белка

Помните: идентификатор - это набор символов, обычно, бессмысленный, однозначно определяющий запись в определенной базе данных. Как правило, он не имеет отношения к содержимому записи.