Знакомство со структурой банка RefSeq посредством поисковой системы SRS
Мною был проивзеден поиск в базе данных RefSeq_DNA с помощью поисковой системы SRS последовательностей из генома дрожжей Saccharomyces cerevisiae. Из результатов выдачи мною были выбраны последовательности хромосом, затем был получен список этих хромосом в формате, пригодном для выкладывания на html. Результаты приведены ниже:
REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
Затем для хромосомы №12 мною были получены следующие данные( из разделов "Features Summary" и "Sequence: Characteristics"):
- Длина хромосомы(1 цепь): 1078177 нуклеотидов
- Количество генов белков(CDS) : 508
- Количество генов тРНК : 21
После этого были найдены гены с заданными свойствами (см. таблица 1). Ген находится на цепи, комплиментарной находящейся в базе данных, если перед его координатами идет ключевое слово complement. В гене есть интроны, если в соответсвующей записи CDS перед координатами есть слово join.
Таблица 1. Гены с заданными свойствами.
Пример | Название гена | Координаты соответсвующей записи в CDS |
ген, который находится на прямой цепи и не имеет интронов | BPT1 | 116432..121111 |
ген, который находится на обратной цепи и не имеет интронов | PUF3 | complement(122075..124714) |
ген, который находится на прямой цепи и имеет хотя бы один интрон | RPS0B | join(242232..242321,242681..243349) |
ген, который находится на обратной цепи и имеет хотя бы один интрон | COF1 | complement(join(39804..40221,40401..40414)) |
Получение последовательности, кодирующей заданный белок
.Для белка с идентификатором YP_004737029.1 с помщью сервиса IDMApping в прошлом семестре был найден идентификатор Uniprot ID - D7GXG0 и AC. Затем с помщью команды "entret uniprot:D7GXG0", выполенной на сервере kodomo был получен файл pora_zobga.entret, в котором в строке DR EMBL был найден его идентификаторы в этой базе: FQ073838(вся последовательнось, полученная в ходе эксперимента) и CBM41182.1(информация о данном конкретном белке в данном геноме); FP476056(вся последоаельность, полученная в ходе экспримента) и CAZ96750.1(информация о данном белке в геноме). Были скачаны все соответствующие записи.
Затем необходимо было получить последовательность белка. Это можно сделать двумя способами для каждой пары записей - вырезать из общего файл ас геномом, либо взять сразу файл, соответствующий нашему белку. Чтобы получить необходимую последовательность из генома необходимо определить координаты гена, кодирующего белок, вырезать последовательность и переконвертировать ее в fasta-формат с помощью команды seqret -sask. Во втором случае достаточно просто команды seqret. Эти операции были проделаны с обеими парами, в результате было получено четыре файла:
- caz96750.entret --> caz96750.fasta
- cbm41182.entret --> cbm41182.fasta
- fp476056.entret --> fp476056.fasta
- fq073838.entret --> fq073838.fasta
Для того, чтобы убедиться, что все полученные последовательности аналогичны было построено выравнивание в JalView(рис. 1). Скачать jar-проект можно по этой ссылке
Рис.1. Выравнивание последовательности гена белка, полученных из разных источников.
Выравнивание белков и их генов
Для белка β-порфириназы из Zobellia galactinovorans и одноименного гомолога, полученного из Formosa agariphila(подробнее сравнение этих белков можно увидеть здесь) были взяты белковые последовательности и построено выранивание с помощью программы needle пакета EMBOSS( с помощью команды "needle -aformat3 fasta -asequence zobelia.fasta -bsequence formosa_agariphila.fasta -outfile protein_align.fasta -auto "). Исходные последовательности и выравнивание в формате fasta и в виде файла проекта JalView:
Выравнивание белков можно увидеть на рис.2
Рис.2. Выравнивание белков β-порфириназы из Zobellia galactinovorans и одноименного гомолога из Formosa agariphila, полученное с помощью программы needle.
Далее мною были получена последовательность гена, кодирующего β-порфириназу из Formosa agariphila с помощью команды "seqret embl:CDF79851.1 " и построено выравнивание с помощью needle(см. рис. 3.). Файл с нуклеотидной последовательностью Formosa agariphila и выравнивание в fasta и jar форматах:
Рис.3. Выравнивание генов белков β-порфириназы из Zobellia galactinovorans и одноименного гомолога из Formosa agariphila, полученное с помощью программы needle.
Затем с помощью tranalign было построено еще одно выравнивание нулеотидных последовательностей(" tranalign -asequence both.fasta -bsequence protein_align.fasta -outseq nucl_prot_align.fasta")(см. рис. 4.). Файл с обеими последовательностями в формате fasta и полученный файл выравнивания в fasta и jar:
Рис.4. Выравнивание генов белков β-порфириназы из Zobellia galactinovorans и одноименного гомолога из Formosa agariphila, полученное с помощью программы tranalign.
Выравнивание белков достаточно хорошее, т.к содержит продолжительные консервативные блоки, что может свидетельствовать о гомологии данных белков. Из выравнивания генов, полученного с помощью tranalign также можно сделать похожее заключение. В то же время выравнивание, полученное needle относительно бессмысленно. В нем есть гэпы длиной , не кратной трем, что не дает возможность с достаточными основаниями судить о гомологии белков. Дело в том, что, во-первых, нуклеотидов всего 4, что создает большое количество выравниваний со схожими очками, не имеющими при этом никакого биологического смысла. Кроме этого, needle воспринимает нуклеотиды как аминокислоты, что приводит к тому, что, к примеру, веса выравниваний А-А и G-G отличаются( причем значительно, т.к за глицин ставится большое количество очков, а за алании - намного меньшее). Таким образом needle абсолютно не годится для выравнивания нуклеотидных последовательностей. Tranalign показывает значительно лучшие результаты, так как использует в выравнивании информацию о выравнивании белков, что значительно улучшает качество нуклеотидного выравнивания.