Нуклеотидные банки данных

SRS (Sequence Retrieval System) – это поисковая система, с помощью которой можно искать данные в различных банках данных.

NCIB’s Reference Sequence (RefSeq) - это база данных, которая содержит последовательности белков и нуклеиновых кислот. Здесь можно найти аннотацию к геному, его характеристики, а также информацию об изменении последовательности и данные исследований экспрессии (см. статью о RefSeq)

Например, найдем в RefSeq посредством поисковой системы SRS хромосомы дрожжей Saccharomyces cerevisiae.

Для этого зададим следующие параметры:

Organism Name: Saccharomyces cerevisiae;
Molecule: DNA.

При таком поиске был получен список всех хромосом (Таблица 1).

Таблица 1

REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066

В таблице были перечислены 16 записей, соответствующих хромосомам, 1 запись, соответствующая двухмикронной плазмиде, и 1 запись, соответствующая полному гемону митохондрии.

Выберем 13ую хромосому в списке. Это хромосома XIII (NC_001145). Перейдя по ссылке RefSeq Genome (Release):NC_001145, можно найти всю интересующую информацию о выбранной хромосоме:

длина (Sequence Length): 924431
количество генов (gene): 496
тРНК (tRNA): 21

В записи выбранной хромосомы были найдены примеры генов в разных положениях (Таблица 2)

Таблица 2

Примеры генов дрожжей Saccharomyces cerevisiae

	Название гена	Координаты CDS в записи	Продукт гена
Ген, который находится на прямой цепи и не имеет интронов	"CSI1"	CDS 323300..324187	product="Csi1p"
Ген, который находится на обратной цепи и не имеет интронов	"PEX12"	CDS complement(324236..325435)	product="ubiquitin-protein ligase peroxin 12"
Ген, который находится на прямой цепи и имеет хотя бы один интрон	HAC1	CDS join(75179..75839,76092..76147)	product="Hac1p"
Ген, который находится на обратной цепи и имеет хотя бы один интрон	ERV41	CDS complement(join(139063..140090,140184..140214))	product="Erv41p"

Если ген находится на обратной цепи, то в записи присутствует «complement». При наличии нескольких экзонов в гене их координаты перечисляются в скобках после слова «join».

Получение последовательности, кодирующей заданный белок

Для белка с идентификатором YP_003762680.1 в базе данных NCBI Protein Database был получен Uniprot ID (D8HXL8_AMYMU).

С помощью команды "entret uniprot:D8HXL8_AMYMU" был получен файл, в котором в строке, начинающейся с "DR EMBL", сразу после "EMBL" идёт AC соответствующих записей EMBL: CP002000 (содержит полный геном бактерии Mycobacterium leprae TN) и ADJ42278.1 (содержит информацию о заданном белке)

С помощью команд: "entret embl:CP002000" и "entret embl:ADJ42278.1" получены файлы с соответствующими полными записями EMBL.

Чтобы вырезать участок, кодирующий заданный белок, из общего файла с геномом бактерии, нужно сначала определить его координаты и направление (их можно найти в любом из файлов ADJ42278_1 и CP002000), а затем применить к файлу CP002000 команду seqret с опцией -sask. Координаты участка, кодирующего заданный белок: 459790..460539. Участок расположен на + цепи. В результате получен файл с последовательностью гена в формате fasta.

Последнее обновление: 16.09.2014