Учебный сайт Ксении Худяковой

Главная
Семестры
Обо мне
Ссылки

Надо было вывести через SRS список хромосом дрожжей Saccharomyces cerevisiae и переформатировать его.

REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066	

Мне досталась вторая хромосома. Ее длина 813184 пар оснований. Количество генов белков - 408. Число тРНК - 13.

Требовалось привести примеры четырех генов по заданным критериям.

ген, который находится на прямой цепи и не имеет интронов:
ген "SFT2", координаты: 24098..24745
ген, который находится на обратной цепи и не имеет интронов:
ген "SRO77", координаты: 10847..13879
ген, который находится на прямой цепи и имеет хотя бы один интрон:
ген "YBL100W-B", координаты: 29935..35248, координаты игнтронов: 29935..31227 и 31229..35248
ген, который находится на обратной цепи и имеет хотя бы один интрон:
ген "SCS22", координаты 46565..47180, координаты интронов 46565..47058 и 47147..47180)

Для белка с идентификатором YP_003762680.1 в базе данных NCBI Protein Database был получен Uniprot ID (D8HXL8_AMYMU).

С помощью команды "entret uniprot:D8HXL8_AMYMU" был получен файл uni, в котором в строке, начинающейся с "DR EMBL", сразу после "EMBL" идёт AC соответствующих записей EMBL: CP002000 (содержит полный геном бактерии Mycobacterium leprae TN) и ADJ42278.1 (содержит информацию о заданном белке)

С помощью команд: "entret embl:CP002000" и "entret embl:ADJ42278.1" получены файлы CP002000 и ADJ42278_1 с соответствующими полными записями EMBL.

Чтобы вырезать участок, кодирующий заданный белок, из общего файла с геномом бактерии, нужно сначала определить его координаты и направление (их можно найти в любом из файлов ADJ42278_1 и CP002000), а затем применить к файлу CP002000 команду seqret с опцией -sask. Координаты участка, кодирующего заданный белок: 459790..460539. Участок расположен на + цепи. В результате получен файл final.fasta с последовательностью гена в формате fasta.