Знакомство со структурой банка RefSeq посредством поисковой системы SRS
С помощью SRS был выведен список хромосом дрожжей Saccharomyces cerevisiae.
REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218
REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184
REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620
REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933
REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874
REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161
REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940
REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643
REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888
REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751
REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816
REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177
REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431
REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333
REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291
REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
Мне была задана десятая хромосома. Ее длина равна 745751, в ней 388 генов и 24 тРНК.
Примеры генов:
Ген, который находится на прямой цепи и не имеет интронов - HXT9, с координатами CDS: 19497..21200.
Ген, который находится на обратной цепи и не имеет интронов - IMA5, с координатами CDS: complement(24341..26086).
Ген, который находится на прямой цепи и имеет хотя бы один интрон - RPL43B, с координатами CDS: join(608305..608306,608582..608858).
Ген, который находится на обратной цепи и имеет хотя бы один интрон - NCE101, с координатами CDS: complement(join(50139..50268,50412..50443)).
Получение последовательности, кодирующей заданный белок
На kodomo была выполнена команда "entret sw:SCO1_BACSU -outfile sw_SCO1_BACSU", где SCO1_BACSU - AC изучаемого белка в Swiss-Prot. В полученном файлу были найдены строки,
начинающиеся с "DR EMBL". Сразу после "EMBL" идет AC записи EMBL.
DR EMBL; L77246; AAA96641.1; -; Genomic_DNA.
DR EMBL; AL009126; CAB14093.2; -; Genomic_DNA.
Дальше был получен файл с полной записью EMBL (entret embl:SCO1_BACSU -outfile embl_SCO1_BACSU).
Затем в файле были найдены координаты CDS на прямой цепи: 29167..29748.
Теперь осталось использовать команду seqret -sask. Результаты были записаны в файл SCO1_BACSU_CDS.fasta.
>L77246 L77246.1 Bacillus subtilis (YAC10-9 clone) DNA region between the serA and kdg loci.
atgaaggttatcaaggggttaacggctgggctgatttttctgtttttgtgtgcatgcgga
ggacagcagattaaagatccgctcaattacgaggtggagccttttacatttcaaaaccaa
gacggcaagaacgtttctttagagagtttaaaaggagaagtatggctggcggattttatt
tttaccaattgtgaaactatatgtccgccaatgaccgctcatatgaccgatctgcaaaaa
aaactgaaagccggaaatatagatgtccgcatcatatcatttagtgttgatccagaaaac
gataagccgaaacagctgaagaaatttgccgcaaattatccattatcttttgataactgg
gattttctcacgggatacagccagagtgagattgaggagttcgcacttaagagctttaaa
gcgatcgtaaagaagccggagggagaggaccaagtgattcatcaatcttctttttatttg
gtaggtccggacggtaaggtgctgaaagattacaatggagtggagaatacaccgtacgat
gatatcatttccgatgtgaagtcagccagtacactcaagtaa
|