Банки последовательностей нуклеиновых кислот

Банк RefSeq. Поисковая система SRS

Список хромосом Saccharomyces cerevisiae:

REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066

Информация о хромосоме II:

Accession : NC_001134;
Длина: 813184
Количество генов: 425
Количество генов тРНК: 13

Некоторые типы генов:

ген, который находится на прямой цепи и не имеет интронов
gene=MOH1 Moh1p
Gene ID: 852231
CDS: 126828..127244
ген, который находится на обратной цепи и не имеет интронов
gene=YBL112C hypothetical protein
Gene ID: 852160
CDS: complement(2582..2899)
ген, который находится на прямой цепи и имеет хотя бы один интрон
SEC17 Sec17p
Gene ID: 852230
CDS: join(125125..125154,125271..126119)
ген, который находится на обратной цепи и имеет хотя бы один интрон
gene=YBL111C hypothetical protein
Gene ID: 852161
CDS complement(join(2907..4116,4216..5009))

Получение последовательности, кодирующей заданный белок

В качестве примера, будем работать с у же знакомым нам белком CRH_BACSU.

При помощи команды entret sw: crh_bacsu (где crh_bacsu - идентификатор белка в базе Swiss-Prot), получаем AC белка в EMBL.
```
Ac EMBL: Z94043
```
При помощи поисковой системы SRS определяем границы гена и ориентацию на цепи.
```
CDS:  12612..12869
```

При помощи программы seqret -sask вырезаем нужный фрагмент последовательности ДНК из файла Z94043.

>Z94043 Z94043.1 B.subtilis genomic DNA fragment (88 kb)
atggttcaacagaaagtggaagttcgattaaagacaggactgcaagcacgtcctgctgct
ttgtttgtacaagaagcaaaccggtttacgtcagatgtgtttcttgagaaggatgggaaa
aaagtaaacgccaaaagcatcatggggctgatgagccttgcggtaagcacaggcactgag
gttaccttgattgcccagggagaagatgaacaagaggcgctggagaagctggctgcttac
gttcaagaagaagtttag

Выравнивание белков и их генов

Для примера будем работать с белком crh_bacsu и его близким гомологом crh_bachd. Последовательность гена-гомолога crh_bachd:

>BA000004 BA000004.3 Bacillus halodurans C-125 DNA, complete genome.
ttggttgaaaaacaagtagaagtgaagctgaaaacaggattacaagctcgccctgctgct
ctctttgttcaggaagcgaatcgcttcacctcagaaatcttcattgagaaggatggaaag
aaagtaaatgccaaaagcatcatgggtctcatgagcttggccattggctccggatcaacg
atcacattgatcacagaaggaaatgatgaacaggaagcgatggaggctcttatcgcattc
atcgaaaaggaataa

Вырвнивание needle

Выравненные последовательности белков-ортологов:

               10        20        30        40        50        60        70        80     
CRH_BACSU MVQQKVEVRLKTGLQARPAALFVQEANRFTSDVFLEKDGKKVNAKSIMGLMSLAVSTGTEVTLIAQGEDEQEALEKLAAYVQEEV
          ::...:::.::::::::::::::::::::::..:.:::::::::::::::::::. .:. .::: .: :::::.: : :....: 
CRH_BACHD MVEKQVEVKLKTGLQARPAALFVQEANRFTSEIFIEKDGKKVNAKSIMGLMSLAIGSGSTITLITEGNDEQEAMEALIAFIEKE-
               10        20        30        40        50        60        70        80

Выравненные последовательности генов-ортологов:


Z94043             1 a-tggtt---caac-ag-a-aagtggaagttc-gattaaagacaggactg     42
                       |||||   .||| || | |||| ||||  | ||  ||  ||||||.|.
BA000004           1 -ttggttgaaaaacaagtagaagt-gaag--ctga--aa--acaggatta     42

Z94043            43 caagcacgtcctgctgctttgtttgtacaagaagcaaaccggtttacgtc     92
                     |||||.||.|||||||||.|.|||||.||.|||||.||.||.||.||.||
BA000004          43 caagctcgccctgctgctctctttgttcaggaagcgaatcgcttcacctc     92

Z94043            93 ag--atgtgtttc-ttgagaaggatgggaaa-aaagtaaacgccaaaagc    138
                     ||  ||   .||| ||||||||||| ||||| ||||||||.|||||||||
BA000004          93 agaaat---cttcattgagaaggat-ggaaagaaagtaaatgccaaaagc    138

Z94043           139 atcatggggctgatgagcctt-gc----gg-taagcacagg--c-actga    179
                     ||||||||.||.||||| ||| ||    || |   | | ||  | || ||
BA000004         139 atcatgggtctcatgag-cttggccattggct---c-c-ggatcaac-ga    181

Z94043           180 ggttaccttgattgcccag--ggagaa-gatgaacaagaggcgctggaga    226
                       |.||.|||||  |.|||  ||| || ||||||||.||.|||.||||| 
BA000004         182 --tcacattgat--cacagaagga-aatgatgaacaggaagcgatggag-    225

Z94043           227 agctggctgctta-cg--ttca-agaagaag--tttag    258
                      |||     |||| ||  |||| .||| |||  .|.| 
BA000004         226 -gct-----cttatcgcattcatcgaa-aaggaataa-    255

Выравнивание tranalign генов белков-гомологов

>crh_bacsu
atggttcaacagaaagtggaagttcgattaaagacaggactgcaagcacgtcctgctgct
ttgtttgtacaagaagcaaaccggtttacgtcagatgtgtttcttgagaaggatgggaaa
aaagtaaacgccaaaagcatcatggggctgatgagccttgcggtaagcacaggcactgag
gttaccttgattgcccagggagaagatgaacaagaggcgctggagaagctggctgcttac
gttcaagaagaagtt
>crh_bachd
atggttgaaaaacaagtagaagtgaagctgaaaacaggattacaagctcgccctgctgct
ctctttgttcaggaagcgaatcgcttcacctcagaaatcttcattgagaaggatggaaag
aaagtaaatgccaaaagcatcatgggtctcatgagcttggccattggctccggatcaacg
atcacattgatcacagaaggaaatgatgaacaggaagcgatggaggctcttatcgcattc
atcgaaaaggaa---

Сравнение результатов

Поскольку программа tranalign строит выравнивание днк по белковому выравниванию, то оно очевидно должно быть близко по структуре к белковому.
Если tranalign использует такие же алгоритмы выравнивания, как и needle, то их выравнивания должны быть схожи. Этот хорошо заметно из результатов.
Например, в выравнивании tranalign, как и в белковом needle нет гэпов. Гэпы могли появиться в таком выравнивании, только если они есть в белковом.
В выравнивании днк при помощи needle много гэпов, так как программа пыталась найти наилучше выравнивающиеся участки. Однако такое выравнивание не имеет биологического смысла, в нем слишком много гэпов.

Поиск в нуклеотидном банке NCBI по имени гена

Производился поиск гена MOH1 Moh1p.
Первая же ссылка - на страницу данного гена