Учебный сайт Ксении Березиной

Нуклеотидные банки данных

Заданиe 1

С помощью сервиса SRS в банке RefSeq_DNA был получен список хромосом дрожжей Saccharomyces cerevisiae.

	  
REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066
	  

Рассмотрим подробнее хромосому II. Ее длина -- 813184 пары оснований, количество генов белков (поле CDS (Coding DNA Sequence)) -- 408, она содержит 13 тРНК.

В таблице 1 приведены некоторые гены этой хромосомы, соответствующие характеристикам в первом столбце. Данные получены из полного текста записи в базе данных Refseq. "complement" в координатах CDS означает, что кодирующий ген расположен на (формальной) обратной цепи. Перерыв в координатах говорит об интроне в последовательности.

Таблица 1. Пример генов хромосомы II Saccharomyces cerevisiae штамма S288c.

Генназвание (поле gene)координаты CDS
находится на прямой цепи и не имеет интроновATP137053..38690
находится на обратной цепи и не имеет интроновPAU9complement(7605..7733)
находится на прямой цепи и имеет один интронECM33393123..393180,393511..394742
находится на обратной цепи и имеет один интронSCS22complement(46565..47058,47147..47180)

Заданиe 2

Рассмотрим гипотетический белок археи Aeropyrum pernix. С помощью ID Mapping идентификатор Refseq NP_147299.2 данного белка был переведен в код доступа в Uniprot. Код доступа первый (AC) в банке Uniprot — Q9YEQ6. Идентификатор записи (ID) — Q9YEQ6_AERPE.

Используя команду entret пакета EMBOSS получаем файл с записью в базе данных Uniprot, в котором находим идентификатор в базе EMBL (AC BA000002). Теперь можно получить полную запись генома археи в EMBL (fasta, text). SRS почему-то перестал работать, поэтому я воспользовалась сайтом EMBL-EBI.

Теперь необходимо выделить из последовательности всего генома археи нуклеотиды гена, кодирующего наш белок Q9YEQ6. Сначала из поля GN файла белка возьмем название локуса гена:

GN   OrderedLocusNames=APE_0525.1 {ECO:0000313|EMBL:BAA79490.2};

В файле полного генома с описанием можно произвести поиск этого локуса, тут же и будут координаты кодирующего участка (CDS):

FT   CDS             complement(360842..361378)
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /locus_tag="APE_0525.1"

Для получения фрагмента последовательности в этих границах была использована такая команда seqret с опцией -sask. Команда запрашивает координаты начала и конца фрагмента во входном файле и направление цепи (под reverse имеется в виду комплементарная цепь, как в нашем случае). Выходной файл с последовательностью гена

Назад к третьему семестру