Нуклеотидные банки данных

Знакомство со структурой банка RefSeq посредством поисковой системы SRS

С помощью поисковой системы SRS был получен список записей банка RefSeq, которые относятся к пекарским дрожжам Saccharomyces cerevisiae. Кроме 16-ти хромосом генома, список записей для которых представлен ниже, были найдены две записи, соответствующие двухмикронной плазмиде и геному митохондрии. В списке для каждой записи приведен Accession RefSeq, описание записи и длина (в парах нуклеотидов).
REFSEQ:NC_001133  Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ:NC_001134  Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ:NC_001135  Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ:NC_001136  Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ:NC_001137  Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ:NC_001138  Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ:NC_001139  Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ:NC_001140  Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ:NC_001141  Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ:NC_001142  Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ:NC_001143  Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ:NC_001144  Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ:NC_001145  Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ:NC_001146  Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ:NC_001147  Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ:NC_001148  Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066	
		
В качестве примера для дальнейшей работы мне была дана шестая хромосома, имеющая следующие характеристики: В записи для этой хромосомы были найдены примеры генов различного расположения и интрон-экзонной организации. Для каждого из примеров генов приведены название (выделено жирным шрифтом), координаты CDS (Coding sequence) и продукт этого гена: Таким образом, становится понятно, что расположение гена на обратной цепи можно распознать по наличию в его записи слова complement. Если же ген содержит несколько экзонов, то их координаты будут представлены в строке CDS в скобках после слова join.

Получение последовательности, кодирующей заданный белок

В этом задании вернёмся к любимому мною после первых двух семестров белку CISY_BACSU, для которого на этот раз мы получим последовательность гена с помощью поиска по нуклеотидной базе данных. Будем использовать программы пакета EMBOSS.
  1. C помощью команды entret sw:CISY_BACSU получаем запись из Swiss-Prot со всей информацией о белке, в которой находим строку, где указан идентификатор нуклеотидной последовательности для базы EMBL - U05256 (таких идентификаторов может быть несколько, так как запись в EMBL соответствует не отдельному гену, а результату одного эксперимента).
  2. Теперь получим запись из EMBL по найденному идентификатору. Команда entret embl:U05256 поможет нам в этом. В полученной записи содержится информация о генах двух белков: цитратсинтазе I и её репрессоре. Из него узнаём границы CDS интересующего нас гена citA (1131..2231) и то, что ген расположен на прямой цепи.
  3. Используя команду seqret -sask получу фрагмент последовательности EMBL, кодирующий мой белок. Сохраняю его в формате .fasta с названием CISY_BACSU.
Таким образом, по идентификатору была получена последовательность гена, установленная в одном из нескольких экспериментов. Последовательность в формате FASTA: ССЫЛКА.

Выравнивание белков и их генов

Для белка CISY_BACSU и его гомолога CISY_BACCO (из Bacillus coagulans) получим выравнивание их последовательностей, а также последовательностей кодирующих их генов с помощью проограммы needle (штрафы за появление и удлинение пропуска стандартные). Затем произведём выравнивание генов с помощью команды tranalign, которая позволяет выравнивать последовательности генов, если наперёд задано выравнивание белков, с этих генов транслируемых.
Результаты: Выводы: Теперь сравним выравнивания, полученные для генов с использованием двух разных программ. При выравнивании needle расценивает как логическую единицу отдельный нуклеотид, а не кодон, поэтому мы можем там найти не кратные трём пропуски, что в общем-то не отражает биологическую суть. Ну а то, что даже в needle получается довольно высокое identity, можно объяснить тем, что алфавит ДНК состоит всего из четырёх букв, в отличие от аминокислотного, включающего 20 символов. В силу всего этого при поиске гомологов и для любых других действий, где необходимо выравнивание, разумнее использовать не нуклеотидные, а белковые последовательности, а при выравнивании генов - строить их на основе белковых выравниваний, что и позволяет делать программа tranalign.

Поиск в нуклеотидном банке NCBI по имени гена

В качестве примера для запроса в NCBI был выбран ген дрожжей RPL22B, который уже встречался нам в первой части этой работы. О результатах, выданных при поиске, могу отметить следующее.

Дата последнего обновления: 17.11.2013
© Dmitry Travin, 2013