Учебная страничка Васюткиной Ольги |
|
Нуклеотидные банки данных
Знакомство со структурой банка RefSeq посредством поисковой системы SRS
SRS - система для поиска последовательностей во всевозможных банках данных.
Требуется привести список всех хромосом дрожжей Saccharomyces cerevisiae.
Будем искать в банке данных RefSeq, а именно RefSeq_DNA (release), используя Standard Query Form.
По запросу:
Organism Name | Saccharomyces cerevisiae
Molecule | DNA
были найдены все хромосомы, а также лишние записи, такие как митохондриальная ДНК дрожжей и геном их вируса.
Отметив только нужные последовательности, в результате получаем список всех хромосом. Помимо названия каждой записи, в нем приведены AC базы данных EMBL и длина каждой хромосомы.
REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218
REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184
REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620
REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933
REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874
REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161
REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940
REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643
REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888
REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751
REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816
REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177
REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431
REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333
REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291
REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
Более подробно рассмотрим хромосому №5, NC_001137. Ее длина 576874 пар оснований. Всего 280 CDS, а значит, и генов белков. Также закодировано 28 тРНК.
В таблице 1 приведены примеры четырёх генов на заданной хромосоме.
|
Таблица 1. Некоторые гены хромосомы V
Ген, который расположен | Название гена | Координаты CDS |
на прямой цепи и не имеет интронов | DSF1 | 19589..21097 |
на обратной цепи и не имеет интронов | HXT13 | complement(21537..23231) |
на прямой цепи и имеет хотя бы один интрон | UBC8 | join(131772..131776,131900..132551) |
на обратной цепи и имеет хотя бы один интрон | PMI40 | complement(join(157736..158994,159088..159118)) |
|
Получение последовательности, кодирующей заданный белок
Как выяснилось ранее, мой белок был аннотирован дважды.
Вначале проводились исследования белков RadA различных архей, и для каждого организма была создана запись Swiss-Prot о его белке RadA.
Позже был аннотирован весь геном археи Methanococcus voltae, причем в этот раз к видовому названию археи добавили штамм А3, то есть, по сути, изменили название организма.
Новая запись белка RadA была сделана на основе гомологии и находится в базе TrEMBL.
Она практически не содержит информации о белке, помимо автоматической аннотации о его функциях.
Можно посмотреть на рис. 1 в работе прошлого семестра , см. первую и последнюю записи.
По идентификатору RefSeq YP_003707477.1 сервис ID Mapping выдает запись с AC D7DTP4, ID D7DTP4_METV3, она аннотирована автоматически.
Если искать по идентификатору PDB 3NTU, обнаруживатся другая запись, ее AC O73948, ID RADA_METVO. С ней и будем работать.
Вначале была получена запись о самом белке командой
entret sw:O73948
В записи приведены ссылки на информацию о белке в других базах данных.
Для получения нуклеотидной последовательности нужен банк EMBL.
Есть две записи в этом банке, их AC AF008421 и AF090200.
Первая содержит полный кодирующий участок (complete cds), вторая частичный (partial cds).
Будем работать с первой.
Команда для получения записи EMBL:
entret embl:AF008421
Открыв эту запись, находим координаты CDS: 396..1364. Теперь программой seqret вырежем кодирующий участок последовательности в файл af008421_cds.fasta. Опция -sask программы seqret запрашивает ввод с клавиатуры название исходного и конечного файлов, начало и конец участка, а также направление цепи.
Конечный файл: af008421_cds.fasta
|
Выравнивание белков и их генов
Используя результаты BLAST для белка RadA археи Methanococcus voltae с АС Uniprot O73948 (см. работу прошлого семестра), выберем гомолога данного белка. Будем работать с записью AC O29269.
Сравним выравнивания последовательностей белков и их генов.
- Выравнивание белков программой needle
needle -auto sw:o73948 sw:o29269 -aformat3 fasta proteins.fasta
Результат: proteins.fasta
- Выравнивание генов программой needle
В базе данных EMBL AC белка-гомолога AE000782 (complete genome) и AF090198 (partial cds).
entret embl:ae000782
seqret ae000782.entret[894676..895689:r] ae000782_cds.fasta
needle -auto -aformat3 fasta af008421_cds.fasta ae000782_cds.fasta genes_needle.fasta
Полученные файлы: ae000782_cds.fasta; genes_needle.fasta
- Выравнивание генов программой tranalign
Эта программа получает на вход последовательности нуклеотидов и соответствующее выравнивание белков.
Каждая последовательность нуклеотидов транслируется трижды различными рамками считывания, и трансляции сравниваются с данным белковым выравниванием.
На выходе получаем выравнивание нуклеотидных последовательностей.
Программа была запущена с опцией -sask.
Исходные файлы: input.fasta (файл с обеими нуклеотидными последовательностями), proteins.fasta
Результат: genes_tranalign.fasta
Для сравнения полученных выравниваний была использована программа infoalign.
infoalign proteins.fasta -html -nousa
infoalign genes_needle.fasta -html -nousa
infoalign genes_tranalign.fasta -html -nousa
Были созданы таблицы 2-4 с параметрами выравниваний.
|
Таблица 2. Информация о выравнивании последовательностей белков с помощью needle
Name | Sequence Length | Aligned Length | Gaps | Gap Length | Identity | Similarity | Difference | % Change | Weight | Description |
RADA_METVO |
322 |
336 |
3 |
14 |
322 |
0 |
0 |
4.166667 |
1.000000 |
DNA repair and recombination protein RadA |
RADA_ARCFU |
337 |
347 |
2 |
10 |
196 |
59 |
82 |
43.515850 |
1.000000 |
DNA repair and recombination protein RadA |
|
Таблица 3. Информация о выравнивании последовательностей нуклеотидов с помощью needle
Name | Sequence Length | Aligned Length | Gaps | Gap Length | Identity | Similarity | Difference | % Change | Weight | Description |
AF008421 |
969 |
1116 |
38 |
147 |
969 |
0 |
0 |
13.172043 |
1.000000 |
Methanococcus voltae RadA (radA) gene, complete cds. |
AE000782 |
1014 |
1140 |
35 |
126 |
779 |
0 |
235 |
31.666666 |
1.000000 |
Archaeoglobus fulgidus DSM 4304, complete genome. |
|
Таблица 4. Информация о выравнивании последовательностей нуклеотидов с помощью tranalign
Name | Sequence Length | Aligned Length | Gaps | Gap Length | Identity | Similarity | Difference | % Change | Weight | Description |
AF008421 |
966 |
1008 |
3 |
42 |
966 |
0 |
0 |
4.166667 |
1.000000 |
Methanococcus voltae RadA (radA) gene, complete cds. |
AE000782 |
1011 |
1041 |
2 |
30 |
597 |
0 |
414 |
42.651299 |
1.000000 |
Archaeoglobus fulgidus DSM 4304, complete genome. |
|
Можно сделать вывод, что tranalign лучше справился с задачей. Его параметры практически идентичны белковому выравниванию, что неудивительно, так как оно и бралось за основу.
|