Нуклеотидные банки данных [Мухалева Е.В.]

Нуклеотидные банки данных

Знакомство со структурой банка RefSeq посредством поисковой системы SRS

В прошлом году мы проходили протеиновые базы данных, теперь настало время время нуклеотидных. Существуют INSDC (International Nucleotide Sequence Database Collaboration) - банки-архивы, которые обмениваются данными. Одним из таких банков мы пользовались при выполнении заданий этого практикума. Первым заданием был поиск хромосомных последовательностей дрожжей Saccharomyces cerevisiae. Их полный список, полученный с помощью сервиса SRS, представлен ниже.

REFSEQ_DNA_ALL:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA_ALL:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA_ALL:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA_ALL:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA_ALL:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA_ALL:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA_ALL:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA_ALL:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA_ALL:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA_ALL:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA_ALL:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA_ALL:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA_ALL:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA_ALL:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA_ALL:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA_ALL:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066

Номер моей хромосомы - 13 (мой порядковый номер - 28, остаток от деления на 16: 12 => 12+1=13). Её длина (Sequence Length) - 924431 нуклеотида, количество генов белков (CDS) - 461 и количество тРНК (tRNA) - 21.

Получение последовательности, кодирующей заданный белок

Следующим заданием был поиск генов с определёнными характеристиками:

ген, который находится на прямой цепи и не имеет интронов: gene="COS3", координаты - 7244..8383
ген, который находится на обратной цепи и не имеет интронов: gene="ERO1", координаты - complement(11483..13174)
ген, который находится на прямой цепи и имеет хотя бы один интрон: gene="GIM5", координаты - join(<82275..82290,82374..>82849)
ген, который находится на обратной цепи и имеет хотя бы один интрон: gene="TUB3", координаты - complement(join(22048..23360,23659..23683))

Следующим заданием была работа с нуклеотидной последовательностью моей бактерии, Geobacter sulfurreducens PCA. Для начала я узнала ID: Q74D82_GEOSL и AC: Q74D82 в Uniprot. Далее я загрузила файл uniprot с помощью команды entret uniprot:xxxxx, где xxxxx был AC моего белка. В полученном файле был найден AC: AE017180 в EMBL. (находится сразу после "DR EMBL") Далее я скачала файл embl по его идентификатору и нашла в нём координаты нужного гена: 1575388..1576182 и поняла, что он лежит на прямой цепи. И последним действием было извлечение последовательности нужного гена в отдельный fasta-файл. Для этого я получила fasta-последовательность генома моей бактерии с помощью команды seqret embl:AE017180 need.fasta , и затем с помощью команды seqret -sask извлекла последовательность белка в этот файл.

Выравнивание белков и их генов

В этом задании сначала нужно было выбрать гомолог моей пептидазы. Мой выбор пал на пептидазу бактерии Geobacter metallireducens GS-15 (Uniprot AC: Q39WA0). Для дальнейшего выполнения задания были проведены все те же операции, что и для исходной пептидазы, то есть: скачан fasta-файл с последовательностью белка, узнан идентификатор EMBL, с помощью команд в putty получен файл embl и с помощью seqret получен fasta-файл с последовательностью, кодирующей эту пептидазу. Все файлы понадобятся для последующего выполнения задания.

1. Выравнивание последовательностей белков программой needle

Сначала с помощью команды needle в putty было получено выравнивание последовательностей белков. Результат можно увидеть на рисунке 1, а также можно скачать fasta-файл с этим выравниванием.

Рисунок 1. Выравнивание последовательностей пептидаз Geobacter sulfurreducens PCA и Geobacter metallireducens GS-15, полученное с помощью needle. Консервативность "Above identity threshold" 70%. Окраска ClustalX.

2. Выравнивание последовательностей их генов программой needle

Дальше, опять с помощью команды needle, было получено выравнивание последовательностей генов белков бактерий. Результат можно увидеть на рисунке 2, а также скачать по этой ссылке.

Рисунок 2. Выравнивание последовательностей генов пептидаз Geobacter sulfurreducens PCA и Geobacter metallireducens GS-15, полученное с помощью needle. Консервативность "Above identity threshold" 70%. Окраска ClustalX.

3. Выравнивание последовательностей их генов программой tranalign

Если предыдущие выравнивания строились с помощью команды, которую мы уже изучали, то с командой tranalign мы сталкиваемся впервые. Её суть в том, что она выравнивает нуклеотидные последовательности по уже готовому выравниванию последовательностей белков. Поэтому на вход ей подаётся два файла: fasta-файл с исходными нуклеотидными последовательностями и fasta-файл с готовым выравниванием последовательностей белков. Причём порядок последовательностей в обоих файлах должен быть одинаковым. Результат выравнивания, полученного с помощью tranalign, можно увидеть на рисунке 3, а также можно скачать данный fasta-файл.

Рисунок 3. Выравнивание последовательностей генов пептидаз Geobacter sulfurreducens PCA и Geobacter metallireducens GS-15, полученное с помощью tranalign. Консервативность "Above identity threshold" 70%. Окраска ClustalX.

Теперь, когда у нас есть два выравнивания, полученные разными способами, можно их сравнить. Что сразу бросается в глаза, так это их разная длина. Выравнивание needle длиннее примерно на 20 позиций, из чего следует вывод, что оно имеет больше гэпов, причём многие из них не кратны 3. Что позволяет засомневаться в достоверности данного выравнивания и предположить, что needle не предназначена для выравнивания нуклеотидных последовательностей. А выравнивание tranalign, получаемое с помощью сопоставления аминокислот и нуклеотидных кодонов, может считаться более достоверным, но, опять же, не полностью, так как оно зависит от выравнивания белковых последовательностей, которые, как мы уже убедились в прошлом семестре, могут быть разные.

Поиск в нуклеотидном банке NCBI по имени гена

Последним заданием был поиск выбранного гена с помощью поиска NCBI. Я выбрала ген COS3, закодированный на XII хромосоме, доставшейся мне в 1 задании. Поиск выдал 10 результатов,из которых три первых принадлежали данной бактерии Saccharomyces cerevisiae S288c , а воторой по счёту был тем самым геном, который мы искали. Остальные результаты относились к бактериям того же вида Saccharomyces cerevisiae, но других штаммов. Причём 2 штамма бактерий, помимо заданной, повторялись в результатах поиска по 2 раза. В принципе, ничего необычного в том, что выдалось столько записей сразу, нет. Потому что во всех этих бактериях этот ген кодирует одинаковые белки (с одинаковыми функциями), поэтому и называется одинаково. Но названия локусов и координаты в хромосоме, при этом, разные. Чтобы убедиться в моих словах, можно посмотреть результаты поиска в этом файле.

Учебный сайт Мухалевой Лизаветы
Главная	Обо мне	Семестры	Скрипты	Ссылки