Нуклеотидные банки данных

Знакомство со структурой банка RefSeq посредством поисковой системы SRS

Через поисковую систему SRS получен список хромосом дрожжей Saccharomyces cerevisiae. Для этого на странице "Select Databanks" нужно отметить чекбокс "RefSeq_DNA (release)" и нажать "Standard Query Form". Затем ввести "Saccharomyces cerevisiae" в поле Organism Name и "DNA" в поле Molecule. Далее отметить галочками те строки, которые отвечают хромосомам, нажать Save и ещё раз Save. Полученный текст:

REFSEQ_DNA:NC_001133  NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134  NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135  NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136  NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137  NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138  NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139  NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140  NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141  NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142  NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143  NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144  NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145  NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146  NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147  NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148  NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066

Для дальнейшей работы выбрана вторая хромосома. Номер заданной хромосомы вычислен следующим образом: 1 + 1 (остаток от деления моего порядкового номера (33) в списке студентов второго курса) = 2. Длина хромосомы (указана в поле Sequence Length) составляет 813184 пар оснований. Количество генов белков (совпадает с количеством кодирующих последовательностей (поле CDS)) - 408. Число тРНК (поле tRNA) - 13.

С помощью полного текста записи Refseq найдены примеры различные примеры генов данной хромосомы. Полный текст записи Refseq можно просмотреть, нажав ссылку Text Entry в верхней части страницы. Информация о некоторых генах второй хромосомы представлена на таблице 1.

Таблица 1. Примеры генов на второй хромосоме Saccharomyces cerevisiae.

Ген	Название гена	Координаты соответствующей CDS
Находится на прямой цепи и не имеет интронов	BRN1	40831..43095
Находится на обратной цепи и не имеет интронов	ROX3	complement(44256..44918)
Находится на прямой цепи и имеет хотя бы один интрон	SEC17	join(125125..125154,125271..126119)
Находится на обратной цепи и имеет хотя бы один интрон	SCS22	complement(join(46565..47058,47147..47180))

Получение последовательности, кодирующей заданный белок

Для белка с идентификатором YP_002797966.1 в базе данных NCBI Protein Database в прошлом семестре (ссылка на соответствующий практикум) был получен Uniprot ID (C1DLP3_AZOVD) и AC (C1DLP3).

С помощью команды "entret uniprot:C1DLP3" (выполнена на сервере kodomo), был получен файл c1dlp3_azovd.entret, в котором в строке, начинающейся с "DR EMBL", сразу после "EMBL" идёт AC соответствующих записей EMBL: CP001157 (содержит полный геном бактерии Azotobacter vinelandii DJ) и ACO76991.1 (содержит информацию о заданном белке).

С помощью команд: "entret embl:ACO76991.1" и "entret embl:CP001157" получены файлы aco76991.entret и cp001157.entret с соответствующими полными записями EMBL.

Получить последовательность заданного белка можно несколькими способами: вырезать из общего файла с геномом бактерии либо переконвертировать отдельный файл EMBL, соответствующий нашему белку, в fasta-формат.

Чтобы вырезать участок, кодирующий заданный белок, из общего файла с геномом бактерии, нужно сначала определить его координаты и направление (их можно найти в любом из файлов aco76991.entret и cp001157.entret), а затем применить к файлу cp001157.entret команду seqret с опцией -sask. Координаты участка, кодирующего заданный белок: 702956..703771. Участок расположен на комплементарной цепи. В результате всех описанных действий получен файл cp001157.fasta с последовательностью гена в формате fasta.

Кроме того, тот же результат можно получить быстрее, получив последовательность гена, непосредственно используя AC записи EMBL, соответствующей гену заданного белка (ACO76991.1). Для этого можно использовать команду: "seqret embl:ACO76991.1 aco76991.fasta". Файл aco76991.fasta, полученный данным способом, содержит ту же последовательность, что и файл cp001157.fasta, полученный способом, описанным в задании.

Выравнивание белков и их генов

Для построения выравниваний был взят гомолог P9WHF6.1 (putative thiosulfate sulfurtransferase SseA) белка rhodanese бактерии Azotobacter vinelandii DJ, найденный и выбранный ранее, с помощью программы BLAST (ссылка на соответствующий практикум). Для гомолога скачана последовательность из базы данных NCBI Protein Database (P9WHF6.fasta). С помощью программы needle (с опцией -aformat3 fasta) постоено выравнивание последовательностей белка rhodanese и его гомолога. Файл с выравниванием в fasta формате - needle_prot.fasta. Наглядное представление выравнивания можно увидеть на рис. 1.

Рис. 1. Выравнивание аминокислотных последовательностей белка rhodanese бактерии Azotobacter vinelandii DJ и белка putative thiosulfate sulfurtransferase SseA бактерии Mycobacterium tuberculosis CDC1551 в раскраске ClustalX. Консервативность "By Conservation" 60%. Выравнивание получено с помощью программы needle. Изображение получено с помощью программы Jalview.

Для белка putative thiosulfate sulfurtransferase SseA с помощью команды "seqret embl:AAK47725.1 aak47725.fasta" получена нуклеотидная последовательность соответствующего гена. Полученный файл - aak47725.fasta. С помощью программы needle построено выравнивание последовательностей генов исследуемого белка и его гомолога. Файл с выравниванием в fasta формате - needle_gene.fasta. Наглядное представление выравнивания можно увидеть на рис. 2.

Рис. 2. Выравнивание последовательностей генов белков rhodanese бактерии Azotobacter vinelandii DJ и белка putative thiosulfate sulfurtransferase SseA бактерии Mycobacterium tuberculosis CDC1551 в раскраске ClustalX. Консервативность "Above identity threshold" 100%. Выравнивание получено с помощью программы needle. Изображение получено с помощью программы Jalview.

Программа tranalign генерирует выравнивание нуклеотидных последовательностей генов белков на основе уже существуюжего выравнивания их аминокислотных последовательностей. На вход программе был подан файл, содержащий последовательности генов исследуемого белка и его гомолога, а также файл с выравниванием их аминокислотных последовательностей, полученный ранее с помощью программы needle. Программа выдала следующую ошибку:"Error: Guide protein sequence THT2_MYCTO not found in nucleic sequence AAK47725". Это значит, что последовательность гена белка putative thiosulfate sulfurtransferase SseA не соответствует последовательности белка, содержащийся в выравнивании (т. е. одна из последовательностей содержит ошибку).

Чтобы привести последовательности в соответствие, с помощью сервиса EMBOSS Transeq получена аминокислотная последовательность белка putative thiosulfate sulfurtransferase SseA, соответствующая нуклеотидной последовательности гена, содержащейся в файле aak47725.fasta. Построено needle-выравнивание транслированной последовательности и последовательности белка rhodanese. Затем, это выравнивание использовалось для повторного запуска программы tranalign. Файл с полученным (с помощью tranalign) выравниванием в fasta формате - tranalign_gene.fasta. Наглядное представление выравнивания можно увидеть на рис. 3.

Рис. 3. Выравнивание последовательностей генов белков rhodanese бактерии Azotobacter vinelandii DJ и белка putative thiosulfate sulfurtransferase SseA бактерии Mycobacterium tuberculosis CDC1551 в раскраске ClustalX. Консервативность "Above identity threshold" 100%. Выравнивание получено с помощью программы tranalign. Изображение получено с помощью программы Jalview.

У программ needle и tranalign принципиально разный подход с построению выравниваний нуклеотидных последовательностей: needle выравнивает на основе побуквенного сходства последовательностей, tranalign использует соответствующее выравнивание последовательностей белков. Это является основной причиной различия этих выравниваний. Выравнивание needle местами совпадает с выравниванием tranalign, но оно длиннее, в нём много участков с гэпами длиной, не кратной трём (что не имеет биологического смысла, т. к. один кодон состоит из трёх нуклеотидов). В целом, способ выравнивания на основе побуквенного сходства не слишком подходит для выравнивания последовательностей генов, потому что вероятность случайного совпадения букв очень велика (в силу того, что букв всего 4). Соответственно, выравнивание с помощью tranalign можно считать более достоверным. Однако, его правильность также является спорной, т. к. она напрямую зависит от правильности выравнивания последовательностей белков (а то, насколько достоверно выравнивание аминокислотных последовательностей, неизвестно).

Поиск в нуклеотидном банке NCBI по имени гена

Выполнен поиск гена BRN1 бактерии Saccharomyces cerevisiae в нуклеотидном банке NCBI. Поиск по запросу "BRN1[Gene Name]" осуществлялся по базе данных "Gene". Найдено 10 записей, соответствующих последовательностям гена BRN1 в основмном из разных организмов (для 6 из них название "BRN1" указано как альтернативное), вторая находка в списке - нужный нам ген бактерии Saccharomyces cerevisiae.

Только две находки относились к одному организму (Candida albicans). Это записи с ID: 3641838 и с ID: 3641815. Эти гены, хоть и имеют одинаковые названия и совершенно одинаковые последовательности, однако, находятся в разных локусах, поэтому, скорее всего, у данного организма ген BRN1 закодирован два раза. Файл с информацией о результатах поиска можно посмотреть здесь.