Нуклеотидные банки данных

Знакомство с банком Refseq через поисковую систему SRS

Получим список всех хромосом дрожжей Saccharomyces cerevisiae. Выберем в качестве быз для поиска "RefSeq_DNA (release)", запрос составим из полей Molecule (DNA) и Organism name (Saccharomyces cerevisiae). Из полученного списка выберем только хромосомы. Итог:

REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066	

Теперь получим некоторую информацию о третьей хромосоме:

  1. длина последовательности: 316620
  2. число генов: 166
  3. число тРНК: 10

Примеры генов на хромосоме:

  1. ген, который находится на прямой цепи и не имеет интронов: LDB16 (108021..108791)
  2. ген, который находится на обратной цепи и не имеет интронов: OCA4 (288170..289258)
  3. ген, который находится на прямой цепи и имеет хотя бы один интрон: HMRA1 (293835..294321)
  4. ген, который находится на обратной цепи и имеет хотя бы один интрон: YCL012C (101317..101788)

Получение последовательности, кодирующей заданный белок

Нам известен АС белка yxiM в Swiss-Prot - P42304. С помощью программы entret получим полную запись из этого банка (файл по ссылке). В поле DR найдём AC записи EMBL - D83026. Теперь получим той же командой запись о белке из банка EMBL (файл по ссылке). Найдёмв записи информацию о CDS для нашего белка, координаты кодирующего участка - 5420-6568. Теперь командой seqret с опцией -sask получим ген, кодирующий белок yxiM (файл по ссылке).