Учебная страница курса биоинформатики,
год поступления 2013

Семестры Студенты Преподаватели

Базы данных в NCBI и идентификаторы записей

На сайте NCBI много разных баз молекулярно-биологических данных

Доступ к ним идет через единую поисковую систему Entez.

Нас касаются следующие базы данных.

БД нуклеоидных последовательностей (ДНК и РНК)

GeneBank - коллекция всех нуклеотидных последовательностей с аннотациями. Может содержать одну и ту же последовательность (или последовательность и ее фрагмент) много раз в отдельных записях. Аннотации не проверяются никем, кроме автора записи. GenBank идентичен европейской и японской базам нуклеотидных последовательностей.
- Идентификатор записи называется ACCESSION (коротко, AC - код доступа) и выглядит как буквы и цифры. Пример U83857
- Другой идентификатор называется LOCUS. Пример: `HSU83857'. Оба присутствуют в каждой записи.
RefSeq (нуклеотидная часть) - коллекция нуклеотидных последовательностей, прошедших контроль на качество информации. В частности, исключены повторения - последовательности (генов, хромосом и др.), встречающиеся в разных базах последовательностей более одного раза.
- Идентификатор записи тоже называется ACCESSION и выглядит как две большие буквы, подчеркивание, много цифр. Пример NC_008255. См. также табл. 1 ниже.
- Идентификатор LOCUS, как правило, совпадает с ACCESSION
Nucleotide - общий доступ ко всем нуклеотидным банкам NCBI. Для поиска по RefSeq (нам нужна именно она) следует в Nucleotide найти кнопку limit, щелкнуть по ней, и изменить в окне "DB source" значение "any" на "RefSeq".
- Своих идентификаторов не имеет. Принадлежность записи RefSeq определяется по подчеркиванию "_" в третей позиции Accession.

БД белковых последовательностей

RefSeq (белковая часть) - аналогично нуклеотидной части
- Идентификаторы см. в табл.1.
Protein - общий доступ ко всем БД последовательностей белков в NCBI.
Uniprot - основная база белковых последовательностей, поддерживается в Европе (но о ней - потом).

БД генов в NCBI

Gene - содержит свод информации о генах (прежде всего, из полностью секвенированых геномов), их мРНК и продуктах - белках. Ссылается на записи с последовательностями в других БД, чаще всего, RefSeq. Показывает положение гена в геноме через genome browser.
- Идентификатор называется geneID, состоит из цифр. Пример: "geneID: 18508"
Genomes - БД полных геномов и геномных проектов (завершенных и незавершенных проектов по секвенированию генома какого-либо вида). Предоставляет сводную информацию о полных геномах и геномных проектах для указанного вида, а также ссылки на БД последовательностей, прежде всего, RefSeq. Показывает карту генома через genome browser.
- Идентификаторы соответствуют геномным проектам (BioProjects). Пример: Accession: PRJNA208678 ID: 208678.

GI (он же gi) - универсальный идентификатор последовательностей в NCBI

В NCBI каждой последовательности, нуклеотидной или белковой, присваивается номер GI, независимо от того, в какую базу данных она поступит - RefSeq, GenBank или еще какую.

Не привязан ни к какой БД.

Таблица 1. Префиксы идентификаторов `RefSeq`

Префикс	содержание
NC_XXXXXXX (XXXXXXX - какой-то номер)	полная последовательности какой-либо ДНК - хромосомы, плазмиды или др.
NM_XXXXXXX	полная последовательности мРНК
NP_XXXXXX	полная последовательность белка в белковой части БД
YP_XXXXXX	полная последовательность белка с неизвестной функцией в белковой части БД

Есть и другие префиксы идентификаторов записей `RefSeq`

Таблица 2. Некоторые поля записи в формате `GenBank` (.gbk)

В NCBIВ в этом формате хранятся все записи с последовательностями. Вот что нужно выучить сейчас. Пример взят из записи полной хромосомы.

уровень 1	уровень 2	уровень 3	что содержит	пример
LOCUS			идентификатор данной записи	AE004092
ACCESSION			2й идентификатор данной записи	AE004092
DEFINITION			описание данной записи	Streptococcus pyogenes M1 GAS, complete genome
SOURCE			чья последовательность - вид, штамм	Streptococcus pyogenes M1 GAS
ORGANISM			таксономия	Streptococcus pyogenes M1 GAS Bacteria; Firmicutes; Bacilli; Lactobacillales; Streptococcaceae; Streptococcus
FEATURES			информация, привязанная к определенному участку
FEATURES	gene		раздел относящийся к гену	complement(45123..46247)
		\gene	короткое название гена	"rpoA"
		\locus_tag	название участка; "код генома_номер п/п"; для прокариот участок обычно совпадает с геном	"SPy_0080"
	CDS		раздел кодирующая последовательность гена; для прокариот границы обычно совпадают с границами гена	complement(45123..46247)
		\product	название белка	"DNA-directed RNA polymerase alpha subunit"
		\note	дополнительные сведения, иногда полезные	"The N-terminal amino acid sequence of this ORF has been determined from a spot isolated by 2-D gel electrophoresis from another strain of S. pyogenes...."
		\protein_id	идентификатор последовательности белка в Protein БД	"AAK33208.1"

Название гена и белка

Краткое название гена берется из поля /gene. Полное название может быть найдено в БД Gene.
Если отсутствует даже краткое название гена, то можно написать так: "ген, расположенный в локусе таком-то, название не указано"
Название белка можно взять из поля /product. Краткое название белка обычно может быть получено из краткого названия гена путем превращения первой буквы из строчной в заглавную.
Фраза "Информация о белке AAK33208.1" неправильная, так писать не следует. От того, что так написано в нашем задании, она - увы - не становится правильнее

Помните: идентификатор - это набор символов, обычно, бессмысленный, однозначно определяющий запись в определенной базе данных. Как правило, он не имеет отношения к содержимому записи.

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2013

Базы данных в NCBI и идентификаторы записей

БД нуклеоидных последовательностей (ДНК и РНК)

БД белковых последовательностей

БД генов в NCBI

GI (он же gi) - универсальный идентификатор последовательностей в NCBI

Таблица 1. Префиксы идентификаторов `RefSeq`

Таблица 2. Некоторые поля записи в формате `GenBank` (.gbk)

Название гена и белка

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2013

Базы данных в NCBI и идентификаторы записей

БД нуклеоидных последовательностей (ДНК и РНК)

БД белковых последовательностей

БД генов в NCBI

GI (он же gi) - универсальный идентификатор последовательностей в NCBI

Таблица 1. Префиксы идентификаторов `RefSeq`

Таблица 2. Некоторые поля записи в формате `GenBank` (.gbk)

Название гена и белка

Учебная страница курса биоинформатики,
год поступления 2013