С помощью SRS был получен список хромосом дрожжей Saccharomyces cerevisiae из банка RefSeq.Ниже для каждой записи представлен Accession RefSeq,описание записи и длина.
REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218
REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184
REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620
REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933
REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874
REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161
REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940
REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643
REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888
REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751
REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816
REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177
REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431
REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333
REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291
REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
Для дальнейшей работы мне была дана восьмая хромосома, которая имеет следующие характеристики:
- длина: 562643 нуклеотида
- всего генов: 297
- количество тРНК: 11
Далее приведены примеры четырех генов на заданной хромосоме, для каждого из которых жирным шрифтом выделено название и координаты CDS (coding sequence):
- ген расположен на прямой цепи и не имеет интронов:
EFM1, CDS (21783..23540)
- ген расположен на обратной цепи и не имеет интронов:
ARN2, CDS complement (8351..10213)
- ген расположен на прямой цепи и имеет хотя бы один интрон:
RPL14B, CDS join(104277..104405,104804..105091)
- ген расположен на обратной цепи и имеет хотя бы один интрон:
YSC84, CDS complement (join(136881..138240,138409..138455)
Таким образом, мы можем понять, что расположение гена на обратной цепи определяется по наличию в его записи слова complement. Если ген содержит интроны, то их координаты будут представлены в строке CDS после слова join.
Получение последовательности, кодирующей заданный белочек.
В табличке был выбран белок HUTU_BACSU, для которого получим последовательность гена с помощью поиска по нуклеотидной базе данных.
- С помощью команды entret sw:HUTU_BACSU получаем запись из Swiss-Prot со всей информацией о белке, где найдем строку с AC записи EMBL:
AC EMBL: D31856
- Используя команду entret embl:D31856, получаем полный файл с записью EMBL и находим границы кодирующего участка:
CDS complement(4094..5752)
- Использую команду seqret -sask, вырезаем участок, кодирующий данный белок в отдельный файл