Учебный сайт Мухалевой Лизаветы

Нуклеотидные банки данных

Знакомство со структурой банка RefSeq посредством поисковой системы SRS

       В прошлом году мы проходили протеиновые базы данных, теперь настало время время нуклеотидных. Существуют INSDC (International Nucleotide Sequence Database Collaboration) - банки-архивы, которые обмениваются данными. Одним из таких банков мы пользовались при выполнении заданий этого практикума. Первым заданием был поиск хромосомных последовательностей дрожжей Saccharomyces cerevisiae. Их полный список, полученный с помощью сервиса SRS, представлен ниже.

REFSEQ_DNA_ALL:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA_ALL:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA_ALL:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA_ALL:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA_ALL:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA_ALL:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA_ALL:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA_ALL:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA_ALL:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA_ALL:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA_ALL:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA_ALL:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA_ALL:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA_ALL:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA_ALL:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA_ALL:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066	

       Номер моей хромосомы - 13 (мой порядковый номер - 28, остаток от деления на 16: 12 => 12+1=13). Её длина (Sequence Length) - 924431 нуклеотида, количество генов белков (CDS) - 461 и количество тРНК (tRNA) - 21.

Получение последовательности, кодирующей заданный белок

       Следующим заданием был поиск генов с определёнными характеристиками:

  1. ген, который находится на прямой цепи и не имеет интронов: gene="COS3", координаты - 7244..8383
  2. ген, который находится на обратной цепи и не имеет интронов: gene="ERO1", координаты - complement(11483..13174)
  3. ген, который находится на прямой цепи и имеет хотя бы один интрон: gene="GIM5", координаты - join(<82275..82290,82374..>82849)
  4. ген, который находится на обратной цепи и имеет хотя бы один интрон: gene="TUB3", координаты - complement(join(22048..23360,23659..23683))

       Следующим заданием была работа с нуклеотидной последовательностью моей бактерии, Geobacter sulfurreducens PCA. Для начала я узнала ID: Q74D82_GEOSL и AC: Q74D82 в Uniprot. Далее я загрузила файл uniprot с помощью команды entret uniprot:xxxxx, где xxxxx был AC моего белка. В полученном файле был найден AC: AE017180 в EMBL. (находится сразу после "DR EMBL") Далее я скачала файл embl по его идентификатору и нашла в нём координаты нужного гена: 1575388..1576182 и поняла, что он лежит на прямой цепи. И последним действием было извлечение последовательности нужного гена в отдельный fasta-файл. Для этого я получила fasta-последовательность генома моей бактерии с помощью команды seqret embl:AE017180 need.fasta , и затем с помощью команды seqret -sask извлекла последовательность белка в этот файл.

Выравнивание белков и их генов

       В этом задании сначала нужно было выбрать гомолог моей пептидазы. Мой выбор пал на пептидазу бактерии Geobacter metallireducens GS-15 (Uniprot AC: Q39WA0). Для дальнейшего выполнения задания были проведены все те же операции, что и для исходной пептидазы, то есть: скачан fasta-файл с последовательностью белка, узнан идентификатор EMBL, с помощью команд в putty получен файл embl и с помощью seqret получен fasta-файл с последовательностью, кодирующей эту пептидазу. Все файлы понадобятся для последующего выполнения задания.

1. Выравнивание последовательностей белков программой needle

       Сначала с помощью команды needle в putty было получено выравнивание последовательностей белков. Результат можно увидеть на рисунке 1, а также можно скачать fasta-файл с этим выравниванием.

Рисунок 1. Выравнивание последовательностей пептидаз Geobacter sulfurreducens PCA и Geobacter metallireducens GS-15, полученное с помощью needle. Консервативность "Above identity threshold" 70%. Окраска ClustalX.

2. Выравнивание последовательностей их генов программой needle

       Дальше, опять с помощью команды needle, было получено выравнивание последовательностей генов белков бактерий. Результат можно увидеть на рисунке 2, а также скачать по этой ссылке.

Рисунок 2. Выравнивание последовательностей генов пептидаз Geobacter sulfurreducens PCA и Geobacter metallireducens GS-15, полученное с помощью needle. Консервативность "Above identity threshold" 70%. Окраска ClustalX.

3. Выравнивание последовательностей их генов программой tranalign

       Если предыдущие выравнивания строились с помощью команды, которую мы уже изучали, то с командой tranalign мы сталкиваемся впервые. Её суть в том, что она выравнивает нуклеотидные последовательности по уже готовому выравниванию последовательностей белков. Поэтому на вход ей подаётся два файла: fasta-файл с исходными нуклеотидными последовательностями и fasta-файл с готовым выравниванием последовательностей белков. Причём порядок последовательностей в обоих файлах должен быть одинаковым. Результат выравнивания, полученного с помощью tranalign, можно увидеть на рисунке 3, а также можно скачать данный fasta-файл.

Рисунок 3. Выравнивание последовательностей генов пептидаз Geobacter sulfurreducens PCA и Geobacter metallireducens GS-15, полученное с помощью tranalign. Консервативность "Above identity threshold" 70%. Окраска ClustalX.

       Теперь, когда у нас есть два выравнивания, полученные разными способами, можно их сравнить. Что сразу бросается в глаза, так это их разная длина. Выравнивание needle длиннее примерно на 20 позиций, из чего следует вывод, что оно имеет больше гэпов, причём многие из них не кратны 3. Что позволяет засомневаться в достоверности данного выравнивания и предположить, что needle не предназначена для выравнивания нуклеотидных последовательностей. А выравнивание tranalign, получаемое с помощью сопоставления аминокислот и нуклеотидных кодонов, может считаться более достоверным, но, опять же, не полностью, так как оно зависит от выравнивания белковых последовательностей, которые, как мы уже убедились в прошлом семестре, могут быть разные.

Поиск в нуклеотидном банке NCBI по имени гена

       Последним заданием был поиск выбранного гена с помощью поиска NCBI. Я выбрала ген COS3, закодированный на XII хромосоме, доставшейся мне в 1 задании. Поиск выдал 10 результатов,из которых три первых принадлежали данной бактерии Saccharomyces cerevisiae S288c , а воторой по счёту был тем самым геном, который мы искали. Остальные результаты относились к бактериям того же вида Saccharomyces cerevisiae, но других штаммов. Причём 2 штамма бактерий, помимо заданной, повторялись в результатах поиска по 2 раза. В принципе, ничего необычного в том, что выдалось столько записей сразу, нет. Потому что во всех этих бактериях этот ген кодирует одинаковые белки (с одинаковыми функциями), поэтому и называется одинаково. Но названия локусов и координаты в хромосоме, при этом, разные. Чтобы убедиться в моих словах, можно посмотреть результаты поиска в этом файле.

© Mukhaleva Elizaveta, FBB MSU, 2013
Дата последнего изменения: 12.10.2014

Valid HTML 4.01 Strict Правильный CSS!