Знакомство со структурой банка RefSeq посредством поисковой системы SRS

С помощью SRS был получен список хромосом дрожжей Saccharomyces cerevisiae из банка RefSeq.Ниже для каждой записи представлен Accession RefSeq,описание записи и длина.
 REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
 REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
 REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
 REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
 REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
 REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
 REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
 REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
 REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
 REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
 REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
 REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
 REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
 REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
 REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
 REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066
Для дальнейшей работы мне была дана восьмая хромосома, которая имеет следующие характеристики: Далее приведены примеры четырех генов на заданной хромосоме, для каждого из которых жирным шрифтом выделено название и координаты CDS (coding sequence): Таким образом, мы можем понять, что расположение гена на обратной цепи определяется по наличию в его записи слова complement. Если ген содержит интроны, то их координаты будут представлены в строке CDS после слова join.

Получение последовательности, кодирующей заданный белочек.

В табличке был выбран белок HUTU_BACSU, для которого получим последовательность гена с помощью поиска по нуклеотидной базе данных.
  1. С помощью команды entret sw:HUTU_BACSU получаем запись из Swiss-Prot со всей информацией о белке, где найдем строку с AC записи EMBL:
    AC EMBL: D31856
  2. Используя команду entret embl:D31856, получаем полный файл с записью EMBL и находим границы кодирующего участка:
    CDS complement(4094..5752)
  3. Использую команду seqret -sask, вырезаем участок, кодирующий данный белок в отдельный файл

© Желудкевич Анна, 2013