Учебный сайт Алены Корягиной

Нуклеотидные базы данных

Для того чтобы познакомиться со структурой базы данных нуклеотидных последовательностей RefSeq мы пользовались поисковой системой SRS. Сначала был выведен список хромосом дрожжей Saccharomyces cerevisiae. Для этого мы ввели "Saccharomyces cerevisiae" в поле Organism Name и "DNA" в поле Molecule. Далее вручную выбрали те строки, которые отвечают хромосомам. Результат данной работы вы можете увидеть ниже.

REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066	
            

Далее была выбрана хромосома номер VIII (идентификатор записи в базе данных RefSeq NC_001140). Длинна этой хромосомы 562643 нуклеотидных пар. Всего данная хромосома кодирует 935 генов, 282 из которых кодируют непосредственно белки, а 11 кодируют тРНК. Из полной записи были выбраны 4 гена с определенной характеристикой (см.табл.1).

Таблица 1. Примеры генов с определенной характеристикой из хромосомы VIII из Saccharomyces cerevisiae

Ген Название гена Координаты
Находится на прямой цепи и не имеет интронов ECM34 14901. .15413
Находится на обратной цепи и не имеет интронов ARN2 complement(8351. .10213)
Находится на прямой цепи и имеет хотя бы один интрон RPL14B join(104277. .104405,104804. .105091)
Находится на обратной цепи и имеет хотя бы один интрон YSC84 complement(join(136881. .138240,138409. .138455))

Также была проведена работа с уже ранее изучаемым белком АТФазы VirB4 (см. работы предыдущих семестров). Его идентификатор белка в базе данных RefSeq — YP_001664069.1. Так же для него уже был ранее найден идентификатор записи Uniprot — B0KAW2 (см. здесь).

В этой работе был определен AC записи EMBL, в которой описан ген этого белка. Для этого на сервере kodomo была введена команда
entret uniprot : B0KAW2
Но результатом стала ошибка, с которой я не смогла разобоаться, поэтому АС записи EMBL был найден вручную. Поиском была найдена строка начинающаяся с "DR   EMBL". Сразу после "EMBL" идёт AC записи EMBL: CP000924 (содержит полный геном бактерии Thermoanaerobacter pseudethanolicus ATCC 33223) и ABY93733.1 (содержит только информацию о заданном белке). C помощью команд
entret embl: CP000924
entret embl: ABY93733.1
были получены файлы cp000924.entret и aby93733.entret с соответствующими полными запясями EMBL. Границы и направление кодирующего участка исследуемого белка были найдены в ручную из второго файла. Ген белка находится на прямой цепи и имеет координаты 56033..57817. Теперь, зная координаты и направление кодирующего участка, мы с помощью команды
seqret -sask cp000924.entret
получили файл cp000924.fasta, в котором содержится участок, кодирующий наш белок.

© Alyona Koryagina aakor@fbb.msu.ru

Дата последнего изменения: 14.10.2014