Нуклеотидные банки данных
Заданиe 1
С помощью сервиса SRS в банке RefSeq_DNA был получен список хромосом дрожжей Saccharomyces cerevisiae.
REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
Рассмотрим подробнее хромосому II. Ее длина -- 813184 пары оснований, количество генов белков (поле CDS (Coding DNA Sequence)) -- 408, она содержит 13 тРНК.
В таблице 1 приведены некоторые гены этой хромосомы, соответствующие характеристикам в первом столбце. Данные получены из полного текста записи в базе данных Refseq. "complement" в координатах CDS означает, что кодирующий ген расположен на (формальной) обратной цепи. Перерыв в координатах говорит об интроне в последовательности.
Таблица 1. Пример генов хромосомы II Saccharomyces cerevisiae штамма S288c.
Ген | название (поле gene) | координаты CDS |
находится на прямой цепи и не имеет интронов | ATP1 | 37053..38690 |
находится на обратной цепи и не имеет интронов | PAU9 | complement(7605..7733) |
находится на прямой цепи и имеет один интрон | ECM33 | 393123..393180,393511..394742 |
находится на обратной цепи и имеет один интрон | SCS22 | complement(46565..47058,47147..47180) |
Заданиe 2
Рассмотрим гипотетический белок археи Aeropyrum pernix. С помощью ID Mapping идентификатор Refseq NP_147299.2 данного белка был переведен в код доступа в Uniprot. Код доступа первый (AC) в банке Uniprot — Q9YEQ6. Идентификатор записи (ID) — Q9YEQ6_AERPE.
Используя команду entret пакета EMBOSS получаем файл с записью в базе данных Uniprot, в котором находим идентификатор в базе EMBL (AC BA000002). Теперь можно получить полную запись генома археи в EMBL (fasta, text). SRS почему-то перестал работать, поэтому я воспользовалась сайтом EMBL-EBI.
Теперь необходимо выделить из последовательности всего генома археи нуклеотиды гена, кодирующего наш белок Q9YEQ6. Сначала из поля GN файла белка возьмем название локуса гена:
GN OrderedLocusNames=APE_0525.1 {ECO:0000313|EMBL:BAA79490.2};
В файле полного генома с описанием можно произвести поиск этого локуса, тут же и будут координаты кодирующего участка (CDS):
FT CDS complement(360842..361378) FT /codon_start=1 FT /transl_table=11 FT /locus_tag="APE_0525.1"
Для получения фрагмента последовательности в этих границах была использована такая команда seqret с опцией -sask. Команда запрашивает координаты начала и конца фрагмента во входном файле и направление цепи (под reverse имеется в виду комплементарная цепь, как в нашем случае). Выходной файл с последовательностью гена