SRS (Sequence Retrieval System) – это поисковая система, с помощью которой можно искать данные в различных банках данных.
NCIB’s Reference Sequence (RefSeq) - это база данных, которая содержит последовательности белков и нуклеиновых кислот. Здесь можно найти аннотацию к геному, его характеристики, а также информацию об изменении последовательности и данные исследований экспрессии (см. статью о RefSeq)
Например, найдем в RefSeq посредством поисковой системы SRS хромосомы дрожжей Saccharomyces cerevisiae.
Для этого зададим следующие параметры:
При таком поиске был получен список всех хромосом (Таблица 1).
Таблица 1
REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
В таблице были перечислены 16 записей, соответствующих хромосомам, 1 запись, соответствующая двухмикронной плазмиде, и 1 запись, соответствующая полному гемону митохондрии.
Выберем 13ую хромосому в списке. Это хромосома XIII (NC_001145). Перейдя по ссылке RefSeq Genome (Release):NC_001145, можно найти всю интересующую информацию о выбранной хромосоме:
В записи выбранной хромосомы были найдены примеры генов в разных положениях (Таблица 2)
Таблица 2
Название гена | Координаты CDS в записи | Продукт гена | |
Ген, который находится на прямой цепи и не имеет интронов | "CSI1" | CDS 323300..324187 | product="Csi1p" |
Ген, который находится на обратной цепи и не имеет интронов | "PEX12" | CDS complement(324236..325435) | product="ubiquitin-protein ligase peroxin 12" |
Ген, который находится на прямой цепи и имеет хотя бы один интрон | HAC1 | CDS join(75179..75839,76092..76147) | product="Hac1p" |
Ген, который находится на обратной цепи и имеет хотя бы один интрон | ERV41 | CDS complement(join(139063..140090,140184..140214)) | product="Erv41p" |
Если ген находится на обратной цепи, то в записи присутствует «complement». При наличии нескольких экзонов в гене их координаты перечисляются в скобках после слова «join».
Получение последовательности, кодирующей заданный белок
Для белка с идентификатором YP_003762680.1 в базе данных NCBI Protein Database был получен Uniprot ID (D8HXL8_AMYMU).
С помощью команды "entret uniprot:D8HXL8_AMYMU" был получен файл, в котором в строке, начинающейся с "DR EMBL", сразу после "EMBL" идёт AC соответствующих записей EMBL: CP002000 (содержит полный геном бактерии Mycobacterium leprae TN) и ADJ42278.1 (содержит информацию о заданном белке)
С помощью команд: "entret embl:CP002000" и "entret embl:ADJ42278.1" получены файлы с соответствующими полными записями EMBL.
Чтобы вырезать участок, кодирующий заданный белок, из общего файла с геномом бактерии, нужно сначала определить его координаты и направление (их можно найти в любом из файлов ADJ42278_1 и CP002000), а затем применить к файлу CP002000 команду seqret с опцией -sask. Координаты участка, кодирующего заданный белок: 459790..460539. Участок расположен на + цепи. В результате получен файл с последовательностью гена в формате fasta.
Последнее обновление: 16.09.2014