Учебная страничка Васюткиной Ольги

Нуклеотидные банки данных

Знакомство со структурой банка RefSeq посредством поисковой системы SRS

SRS - система для поиска последовательностей во всевозможных банках данных.
Требуется привести список всех хромосом дрожжей Saccharomyces cerevisiae. Будем искать в банке данных RefSeq, а именно RefSeq_DNA (release), используя Standard Query Form. По запросу:

Organism Name | Saccharomyces cerevisiae
Molecule | DNA
были найдены все хромосомы, а также лишние записи, такие как митохондриальная ДНК дрожжей и геном их вируса. Отметив только нужные последовательности, в результате получаем список всех хромосом. Помимо названия каждой записи, в нем приведены AC базы данных EMBL и длина каждой хромосомы.


REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066

Более подробно рассмотрим хромосому №5, NC_001137. Ее длина 576874 пар оснований. Всего 280 CDS, а значит, и генов белков. Также закодировано 28 тРНК. В таблице 1 приведены примеры четырёх генов на заданной хромосоме.

Таблица 1. Некоторые гены хромосомы V

Ген, который расположенНазвание генаКоординаты CDS
на прямой цепи и не имеет интроновDSF119589..21097
на обратной цепи и не имеет интроновHXT13complement(21537..23231)
на прямой цепи и имеет хотя бы один интронUBC8join(131772..131776,131900..132551)
на обратной цепи и имеет хотя бы один интронPMI40complement(join(157736..158994,159088..159118))

Получение последовательности, кодирующей заданный белок

Как выяснилось ранее, мой белок был аннотирован дважды. Вначале проводились исследования белков RadA различных архей, и для каждого организма была создана запись Swiss-Prot о его белке RadA. Позже был аннотирован весь геном археи Methanococcus voltae, причем в этот раз к видовому названию археи добавили штамм А3, то есть, по сути, изменили название организма. Новая запись белка RadA была сделана на основе гомологии и находится в базе TrEMBL. Она практически не содержит информации о белке, помимо автоматической аннотации о его функциях. Можно посмотреть на рис. 1 в работе прошлого семестра , см. первую и последнюю записи. По идентификатору RefSeq YP_003707477.1 сервис ID Mapping выдает запись с AC D7DTP4, ID D7DTP4_METV3, она аннотирована автоматически. Если искать по идентификатору PDB 3NTU, обнаруживатся другая запись, ее AC O73948, ID RADA_METVO. С ней и будем работать.

Вначале была получена запись о самом белке командой

entret sw:O73948

В записи приведены ссылки на информацию о белке в других базах данных. Для получения нуклеотидной последовательности нужен банк EMBL. Есть две записи в этом банке, их AC AF008421 и AF090200. Первая содержит полный кодирующий участок (complete cds), вторая частичный (partial cds). Будем работать с первой. Команда для получения записи EMBL:

entret embl:AF008421

Открыв эту запись, находим координаты CDS: 396..1364. Теперь программой seqret вырежем кодирующий участок последовательности в файл af008421_cds.fasta. Опция -sask программы seqret запрашивает ввод с клавиатуры название исходного и конечного файлов, начало и конец участка, а также направление цепи.
Конечный файл: af008421_cds.fasta

Выравнивание белков и их генов

Используя результаты BLAST для белка RadA археи Methanococcus voltae с АС Uniprot O73948 (см. работу прошлого семестра), выберем гомолога данного белка. Будем работать с записью AC O29269.
Сравним выравнивания последовательностей белков и их генов.

  1. Выравнивание белков программой needle
    needle -auto sw:o73948 sw:o29269 -aformat3 fasta proteins.fasta
    Результат: proteins.fasta

  2. Выравнивание генов программой needle
    В базе данных EMBL AC белка-гомолога AE000782 (complete genome) и AF090198 (partial cds).

    entret embl:ae000782
    seqret ae000782.entret[894676..895689:r] ae000782_cds.fasta
    needle -auto -aformat3 fasta af008421_cds.fasta ae000782_cds.fasta genes_needle.fasta

    Полученные файлы: ae000782_cds.fasta; genes_needle.fasta

  3. Выравнивание генов программой tranalign
    Эта программа получает на вход последовательности нуклеотидов и соответствующее выравнивание белков. Каждая последовательность нуклеотидов транслируется трижды различными рамками считывания, и трансляции сравниваются с данным белковым выравниванием. На выходе получаем выравнивание нуклеотидных последовательностей.

    Программа была запущена с опцией -sask.
    Исходные файлы: input.fasta (файл с обеими нуклеотидными последовательностями), proteins.fasta

    Результат: genes_tranalign.fasta

    Для сравнения полученных выравниваний была использована программа infoalign.

    infoalign proteins.fasta -html -nousa
    infoalign genes_needle.fasta -html -nousa
    infoalign genes_tranalign.fasta -html -nousa

    Были созданы таблицы 2-4 с параметрами выравниваний.

Таблица 2. Информация о выравнивании последовательностей белков с помощью needle

NameSequence LengthAligned LengthGapsGap LengthIdentitySimilarityDifference% ChangeWeightDescription
RADA_METVO 322 336 3 14 322 0 0 4.166667 1.000000 DNA repair and recombination protein RadA
RADA_ARCFU 337 347 2 10 196 59 82 43.515850 1.000000 DNA repair and recombination protein RadA

Таблица 3. Информация о выравнивании последовательностей нуклеотидов с помощью needle

NameSequence LengthAligned LengthGapsGap LengthIdentitySimilarityDifference% ChangeWeightDescription
AF008421 969 1116 38 147 969 0 0 13.172043 1.000000 Methanococcus voltae RadA (radA) gene, complete cds.
AE000782 1014 1140 35 126 779 0 235 31.666666 1.000000 Archaeoglobus fulgidus DSM 4304, complete genome.

Таблица 4. Информация о выравнивании последовательностей нуклеотидов с помощью tranalign

NameSequence LengthAligned LengthGapsGap LengthIdentitySimilarityDifference% ChangeWeightDescription
AF008421 966 1008 3 42 966 0 0 4.166667 1.000000 Methanococcus voltae RadA (radA) gene, complete cds.
AE000782 1011 1041 2 30 597 0 414 42.651299 1.000000 Archaeoglobus fulgidus DSM 4304, complete genome.

Можно сделать вывод, что tranalign лучше справился с задачей. Его параметры практически идентичны белковому выравниванию, что неудивительно, так как оно и бралось за основу.


Valid HTML 4.01 Transitional