Нуклеотидные банки данных

Знакомство со структурой банка RefSeq посредством поисковой системы SRS

В SRC был получен список хромосом дрожжей Saccharomyces cerevisiae:

REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066	
                        
Далее, я работала со второй хромосомой , результаты работы представлены в таблице 1.

Таблица 1
Длина хромосомы Количество генов Количество тРНК
813184 425 13

Примеры генов, обладающие следующими свойствами:
- ген, который находится на прямой цепи и не имеет интронов: gene="AIM4", CDS:610038..610409
- ген, который находится на обратной цепи и не имеет интронов: gene="MED8", CDS:complement(609082..609753)
- ген, который находится на обратной цепи и имеет хотя бы один интрон: gene="RPL19A", СDS:complement(join(414186..414753,415260..415261))
- ген, который находится на прямой цепи и имеет хотя бы один интрон: gene="SUS1", СDS:join(462139..462209,462290..462429,462500..462579)

Получение последовательности, кодирующей заданный белок

С помощью команды entret sw:p25052 я получила AC моего белка в EMBL.
AC:M73546
Для того, чтобы вырезать участок, кодирующий мой белок и сохранить информацию в соответствующий файл , сначала я получила файл с полной записью EMBL используя команду:
entret embl:M73546. Затем были выяснены границы кодирующего участка ("CDS"), воспользовавшись поиском по документу (Find: P25052). Затем с помощью команды: seqret -sask был вырезан тот участок последвательности, который кодирует белок TENA_BACSU.

Файл c последовательностью гена, кодирующего мой белок

© Nosikova Kate, 2012