Учебный сайт Кузнецовой Марии

Главная

Первый семестр

Второй семестр

Третий семестр

Ссылки

Об авторе

Нуклеотидные банки данных

С помощью поисковой системы SRS получен список хромосом Saccharomyces cerevisiae. Ниже предоставлен полученный результат.

REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066

Для дальнейшей работы выбрана девятая хромосома. Длина хромосомы составляет 439888 пар оснований. Количество генов белков - 211. Число тРНК - 10.
С помощью полного текста записи Refseq найдены примеры различные примеры генов данной хромосомы. Информация о некоторых генах второй хромосомы представлена на таблице 1.

Таблица 1. Примеры генов на девятой хромосоме Saccharomyces cerevisiae.

Свойство Название гена Координаты соответствующей CDS
Находится на прямой цепи и не имеет интронов VTH1 11492..16141
Находится на обратной цепи и не имеет интронов PAU14 complement(8793..9155)
Находится на прямой цепи и имеет хотя бы один интрон - join(47690..47698,47761..47973)
Находится на обратной цепи и имеет хотя бы один интрон - complement(join(483..4598,4987..6147))

Для белка с идентификатором YP_156085.1 в базе данных NCBI Protein Database в одном из практикумов прошлого семестра был получен Uniprot ID (Q5QUJ8_IDILO) и AC (Q5QUJ8).

С помощью команды "entret uniprot:Q5QUJ8" на сервере kodomo, был получен файл q5quj8_idilo.entret, в котором в строке, начинающейся с "DR EMBL", сразу после "EMBL" идёт AC соответствующих записей EMBL: AE017340 (содержит полный геном бактерии Idiomarina loihiensis L2TR) и AAV82536.1 (содержит информацию о заданном белке).

С помощью команд: "entret embl:AAV82536.1" и "entret embl:AE017340" получены файлы aav82536.entret и ae017340.entret с соответствующими полными записями EMBL.

Получить последовательность заданного белка можно несколькими способами: вырезать из общего файла с геномом бактерии либо переконвертировать отдельный файл EMBL, соответствующий нашему белку, в fasta-формат. Чтобы вырезать участок, кодирующий заданный белок, из общего файла с геномом бактерии, нужно сначала определить его координаты и направление (их можно найти в любом из файлов aav82536.entret и ae017340.entret), а затем применить к файлу ae017340.entret команду seqret с опцией -sask. Координаты участка, кодирующего заданный белок: 1833704..1834444. Участок расположен на прямой цепи. В результате всех описанных действий получен файл ae017340.fasta с последовательностью гена в формате fasta.

Кроме того, тот же результат можно получить быстрее, получив последовательность гена, непосредственно используя AC записи EMBL, соответствующей гену заданного белка (AAV82536.1). Для этого можно использовать команду: "seqret embl:AAV82536.1 aav82536.fasta". Файл aav82536.fasta, полученный данным способом, содержит ту же последовательность, что и файл ae017340.fasta, полученный способом, описанным в задании.

Дата последнего обновления: 15.09.2014
Copyright © Кузнецова Мария, 2013.