Нуклеотидные базы данных

Знакомство со структурой банка RefSeq посредством поисковой системы SRS

С использованием SRS выведем список хромосом дрожжей Saccharomyces cerevisiae.
На странице "Select Databanks" отметим чекбокс "RefSeq_DNA (release)" и нажмем "Standard Query Form" (в левой стороне от списка баз данных). Затем введем нужные значения полей Organism Name (Saccharomyces cerevisiae) и Molecule (DNA).
В полученнной таблице отметим галочками записи, отвечающие хромосомам, затем нажмем Save (в левой стороне экрана) и ещё раз Save.

REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066
		

Для 15 хромосомы запишем ее длину, количество генов и тРНК в ней. Результаты представлены в таблице 1.

Таблица 1. Результаты для 15 хромосомы Saccharomyces cerevisiae

Длина хромосомы

Количество генов

Количество тРНК

1091291 BP

569

20

Приведем примеры четырёх генов на заданной хромосоме, а именно:
– гена, который находится на прямой цепи и не имеет интронов;
gene = BDS1, координаты CDS 6175. .8115

– гена, который находится на обратной цепи и не имеет интронов;
gene = AAD15, координаты CDS complement(1647. .2078)

– гена, который находится на прямой цепи и имеет хотя бы один интрон;
Такой ген не найден.

– гена, который находится на обратной цепи и имеет хотя бы один интрон.
gene = RPL18A, координаты CDS (join(93395. .93843, 94291. .94402))

Получение последовательности, кодирующей заданный белок

Получим последовательность, которая кодирует белок с идентификатором Uniprot_AC - P54491 (подробную информацию об этом белке можно найти по ссылке).
Для этого на kodomo выполним команду entret sw:xxxxx, где xxxxx – это Uniprot_AC.
В полученном файле найдем строку, начинающуюся с "DR EMBL", сразу после "EMBL" идёт AC записи EMBL.

DR   EMBL; D84432; BAA12517.1; -; Genomic_DNA.
DR   EMBL; AL009126; CAB14420.1; -; Genomic_DNA.
			

Соответственно, AC записи EMBL, в которых описан ген белка - AL009126, D84432.
Вырежем участок, кодирующий белок, в отдельный файл. Для этого сначала определим границы кодирующего участка ("CDS"). Получим файл с полной записью EMBL (это можно сделать через SRS или командой entret embl:xxxxxx). Для записи Аl009126 СDS - 2573760..2574323 обратное направление гена , для D84432 CDS - 145282..145845 - прямое.

Теперь можем воспользуйться командой seqret с опцией -sask. Можно просто ввести в терминал seqret -sask, но тогда придется вручную вбивать сиквенс. Гораздо удобнее написать так: seqret ***.entret -sask, где ***.entret - это полученные ранее файлы с полной записью EMBL. Далее надо ввести координаты начала гена и конца, а так же указать направление: Y - обратное, N - прямое.

В итоге получим два файла: al009126.fasta, d84432.fasta -, в которых записаны участки, кодирующие белок.

© Nuzhdina Ekaterina, 2013