Учебная страница курса биоинформатики,
год поступления 2013
Базы данных в NCBI и идентификаторы записей
На сайте NCBI много разных баз молекулярно-биологических данных
Доступ к ним идет через единую поисковую систему Entez.
Нас касаются следующие базы данных.
БД нуклеоидных последовательностей (ДНК и РНК)
GeneBank - коллекция всех нуклеотидных последовательностей с аннотациями. Может содержать одну и ту же последовательность (или последовательность и ее фрагмент) много раз в отдельных записях. Аннотации не проверяются никем, кроме автора записи. GenBank идентичен европейской и японской базам нуклеотидных последовательностей.
Идентификатор записи называется ACCESSION (коротко, AC - код доступа) и выглядит как буквы и цифры. Пример U83857
- Другой идентификатор называется LOCUS. Пример: `HSU83857'. Оба присутствуют в каждой записи.
RefSeq (нуклеотидная часть) - коллекция нуклеотидных последовательностей, прошедших контроль на качество информации. В частности, исключены повторения - последовательности (генов, хромосом и др.), встречающиеся в разных базах последовательностей более одного раза.
Идентификатор записи тоже называется ACCESSION и выглядит как две большие буквы, подчеркивание, много цифр. Пример NC_008255. См. также табл. 1 ниже.
- Идентификатор LOCUS, как правило, совпадает с ACCESSION
Nucleotide - общий доступ ко всем нуклеотидным банкам NCBI. Для поиска по RefSeq (нам нужна именно она) следует в Nucleotide найти кнопку limit, щелкнуть по ней, и изменить в окне "DB source" значение "any" на "RefSeq".
Своих идентификаторов не имеет. Принадлежность записи RefSeq определяется по подчеркиванию "_" в третей позиции Accession.
БД белковых последовательностей
RefSeq (белковая часть) - аналогично нуклеотидной части
- Идентификаторы см. в табл.1.
Protein - общий доступ ко всем БД последовательностей белков в NCBI.
Uniprot - основная база белковых последовательностей, поддерживается в Европе (но о ней - потом).
БД генов в NCBI
Gene - содержит свод информации о генах (прежде всего, из полностью секвенированых геномов), их мРНК и продуктах - белках. Ссылается на записи с последовательностями в других БД, чаще всего, RefSeq. Показывает положение гена в геноме через genome browser.
- Идентификатор называется geneID, состоит из цифр. Пример: "geneID: 18508"
Genomes - БД полных геномов и геномных проектов (завершенных и незавершенных проектов по секвенированию генома какого-либо вида). Предоставляет сводную информацию о полных геномах и геномных проектах для указанного вида, а также ссылки на БД последовательностей, прежде всего, RefSeq. Показывает карту генома через genome browser.
Идентификаторы соответствуют геномным проектам (BioProjects). Пример: Accession: PRJNA208678 ID: 208678.
GI (он же gi) - универсальный идентификатор последовательностей в NCBI
В NCBI каждой последовательности, нуклеотидной или белковой, присваивается номер GI, независимо от того, в какую базу данных она поступит - RefSeq, GenBank или еще какую.
Не привязан ни к какой БД.
Таблица 1. Префиксы идентификаторов `RefSeq`
Префикс |
содержание |
NC_XXXXXXX (XXXXXXX - какой-то номер) |
полная последовательности какой-либо ДНК - хромосомы, плазмиды или др. |
NM_XXXXXXX |
полная последовательности мРНК |
NP_XXXXXX |
полная последовательность белка в белковой части БД |
YP_XXXXXX |
полная последовательность белка с неизвестной функцией в белковой части БД |
Есть и другие префиксы идентификаторов записей `RefSeq`
Таблица 2. Некоторые поля записи в формате `GenBank` (.gbk)
В NCBIВ в этом формате хранятся все записи с последовательностями. Вот что нужно выучить сейчас. Пример взят из записи полной хромосомы.
уровень 1 |
уровень 2 |
уровень 3 |
что содержит |
пример |
LOCUS |
|
|
идентификатор данной записи |
AE004092 |
ACCESSION |
|
|
2й идентификатор данной записи |
AE004092 |
DEFINITION |
|
|
описание данной записи |
Streptococcus pyogenes M1 GAS, complete genome |
SOURCE |
|
|
чья последовательность - вид, штамм |
Streptococcus pyogenes M1 GAS |
ORGANISM |
|
|
таксономия |
Streptococcus pyogenes M1 GAS Bacteria; Firmicutes; Bacilli; Lactobacillales; Streptococcaceae; Streptococcus |
FEATURES |
|
|
информация, привязанная к определенному участку |
|
FEATURES |
gene |
|
раздел относящийся к гену |
complement(45123..46247) |
|
|
\gene |
короткое название гена |
"rpoA" |
|
|
\locus_tag |
название участка; "код генома_номер п/п"; для прокариот участок обычно совпадает с геном |
"SPy_0080" |
|
CDS |
|
раздел кодирующая последовательность гена; для прокариот границы обычно совпадают с границами гена |
complement(45123..46247) |
|
|
\product |
название белка |
"DNA-directed RNA polymerase alpha subunit" |
|
|
\note |
дополнительные сведения, иногда полезные |
"The N-terminal amino acid sequence of this ORF has been determined from a spot isolated by 2-D gel electrophoresis from another strain of S. pyogenes...." |
|
|
\protein_id |
идентификатор последовательности белка в Protein БД |
"AAK33208.1" |
Название гена и белка
Краткое название гена берется из поля /gene. Полное название может быть найдено в БД Gene.
- Если отсутствует даже краткое название гена, то можно написать так: "ген, расположенный в локусе таком-то, название не указано"
Название белка можно взять из поля /product. Краткое название белка обычно может быть получено из краткого названия гена путем превращения первой буквы из строчной в заглавную.
Фраза "Информация о белке AAK33208.1" неправильная, так писать не следует. От того, что так написано в нашем задании, она - увы - не становится правильнее
Помните: идентификатор - это набор символов, обычно, бессмысленный, однозначно определяющий запись в определенной базе данных. Как правило, он не имеет отношения к содержимому записи.