Нуклеотидные банки данных
Существует несколько нуклеотидных банков: GeneBank (США), EMBL (Европа), DDBJ (Япония). Эти банки синхронизированы между друг другом: отличаются лишь интерфейсами, но не данными. В них содержатся непроверенные экспериментальные данные. Также существует база с аннотированными и проверенными последовательностями — Refseq. С такими базами удобно работать с помощью интегрированных систем поиска, например SRS (sequence retrieval system).
Поисковая система SRS
С помощью системы SRS был получен список хромосом Saccharomyces cerevisiae, который представлен ниже. Поиск проводился со следующими параметрами: General DNA Databases -> RefSeq_DNA (release); Organism name: Saccharomyces cerevisiae; Molecule -> DNA.
В результате было получено 16 хромосом.
REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
- Распишем несколько характеристик для I хромосом:
- Длина: 230218
- Количество генов: 102
- Количество тРНК: 4
Ниже приведены примеры 4 генов из данной хромосомы. Гены были получены из записи RefSeq. Сначала написано имя гена, а в скобках указаны его координаты. Гены с интронами в записи координат в RefSeq содержит "join", на обратной цепи — "complement". Имя гена находится в графе "gene=".
- ген, который находится на прямой цепи и не имеет интронов:
FUN30 (114919..118314) - ген, который находится на обратной цепи и не имеет интронов:
FUN26 complement(108877..110430) - ген, который находится на прямой цепи и имеет хотя бы один интрон:
EFB1 join(142174..142253,142620..143160) - ген, который находится на обратной цепи и имеет хотя бы один интрон:
TFC3 complement(join(147594..151006,151097..151166))
Получение последовательности, кодирующей заданный белок
Для дальнейшей работы мне был выдан белок с идентификатором в RefSeq YP_001633816.1. С помощью ID mapping в Uniprot были получены Uniprot ID — MCH_CHLAA и AC — A9WC34. Аналогично узнаём AC записи EMBL. Их получается два: CP000909, соответствующее полному геному бактери, и ABY33427.1, относящееся только к данному белку.
С помощью команды entret embl:CP000909 и entret embl:ABY33427.1 были получены файлы cp000909.entret и aby33427.entret, в которых находятся координаты гена, кодирующего данный белок — complement(CP000909.1:218482..219540).
Получить нуклеотидную последовательность данного белка (complement(CP000909.1:218482..219540)) можно несколькими способами. Во-первых, применить команду seqret с опцией -sask на файле cp000909.entret, введя координаты и то, что цепь комплиментарна. Второй способ быстрее: просто использовать команду seqret embl:ABY33427.1. В результате получатся файлы cp000909.fasta и aby33427.fasta с идентичными последовательностями. Все файлы можно загрузить, нажав на их названия соответственно. History-файл со списком использованных команд можно скачать отсюда.