Eritis sicut Deus, scientes bonum et malum

Сайт студента ФББ Пензара Дмитрия

A- и В- формы ДНК. Структура РНК

Знакомство со структурой банка RefSeq посредством поисковой системы SRS

Мною был проивзеден поиск в базе данных RefSeq_DNA с помощью поисковой системы SRS последовательностей из генома дрожжей Saccharomyces cerevisiae. Из результатов выдачи мною были выбраны последовательности хромосом, затем был получен список этих хромосом в формате, пригодном для выкладывания на html. Результаты приведены ниже:

			
REFSEQ_DNA:NC_001133	NC_001133	Saccharomyces cerevisiae S288c chromosome I, complete sequence. 	230218	
REFSEQ_DNA:NC_001134	NC_001134	Saccharomyces cerevisiae S288c chromosome II, complete sequence. 	813184	
REFSEQ_DNA:NC_001135	NC_001135	Saccharomyces cerevisiae S288c chromosome III, complete sequence. 	316620	
REFSEQ_DNA:NC_001136	NC_001136	Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 	1531933	
REFSEQ_DNA:NC_001137	NC_001137	Saccharomyces cerevisiae S288c chromosome V, complete sequence. 	576874	
REFSEQ_DNA:NC_001138	NC_001138	Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 	270161	
REFSEQ_DNA:NC_001139	NC_001139	Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 	1090940	
REFSEQ_DNA:NC_001140	NC_001140	Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 	562643	
REFSEQ_DNA:NC_001141	NC_001141	Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 	439888	
REFSEQ_DNA:NC_001142	NC_001142	Saccharomyces cerevisiae S288c chromosome X, complete sequence. 	745751	
REFSEQ_DNA:NC_001143	NC_001143	Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 	666816	
REFSEQ_DNA:NC_001144	NC_001144	Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 	1078177	
REFSEQ_DNA:NC_001145	NC_001145	Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 	924431	
REFSEQ_DNA:NC_001146	NC_001146	Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 	784333	
REFSEQ_DNA:NC_001147	NC_001147	Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 	1091291	
REFSEQ_DNA:NC_001148	NC_001148	Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 	948066	
			

Затем для хромосомы №12 мною были получены следующие данные( из разделов "Features Summary" и "Sequence: Characteristics"):

После этого были найдены гены с заданными свойствами (см. таблица 1). Ген находится на цепи, комплиментарной находящейся в базе данных, если перед его координатами идет ключевое слово complement. В гене есть интроны, если в соответсвующей записи CDS перед координатами есть слово join.

Таблица 1. Гены с заданными свойствами.

Пример Название гена Координаты соответсвующей записи в CDS
ген, который находится на прямой цепи и не имеет интронов BPT1 116432..121111
ген, который находится на обратной цепи и не имеет интронов PUF3 complement(122075..124714)
ген, который находится на прямой цепи и имеет хотя бы один интрон RPS0B join(242232..242321,242681..243349)
ген, который находится на обратной цепи и имеет хотя бы один интрон COF1 complement(join(39804..40221,40401..40414))

Получение последовательности, кодирующей заданный белок

.

Для белка с идентификатором YP_004737029.1 с помщью сервиса IDMApping в прошлом семестре был найден идентификатор Uniprot ID - D7GXG0 и AC. Затем с помщью команды "entret uniprot:D7GXG0", выполенной на сервере kodomo был получен файл pora_zobga.entret, в котором в строке DR EMBL был найден его идентификаторы в этой базе: FQ073838(вся последовательнось, полученная в ходе эксперимента) и CBM41182.1(информация о данном конкретном белке в данном геноме); FP476056(вся последоаельность, полученная в ходе экспримента) и CAZ96750.1(информация о данном белке в геноме). Были скачаны все соответствующие записи.

Затем необходимо было получить последовательность белка. Это можно сделать двумя способами для каждой пары записей - вырезать из общего файл ас геномом, либо взять сразу файл, соответствующий нашему белку. Чтобы получить необходимую последовательность из генома необходимо определить координаты гена, кодирующего белок, вырезать последовательность и переконвертировать ее в fasta-формат с помощью команды seqret -sask. Во втором случае достаточно просто команды seqret. Эти операции были проделаны с обеими парами, в результате было получено четыре файла:

Для того, чтобы убедиться, что все полученные последовательности аналогичны было построено выравнивание в JalView(рис. 1). Скачать jar-проект можно по этой ссылке

align_2_task

Рис.1. Выравнивание последовательности гена белка, полученных из разных источников.

Выравнивание белков и их генов

Для белка β-порфириназы из Zobellia galactinovorans и одноименного гомолога, полученного из Formosa agariphila(подробнее сравнение этих белков можно увидеть здесь) были взяты белковые последовательности и построено выранивание с помощью программы needle пакета EMBOSS( с помощью команды "needle -aformat3 fasta -asequence zobelia.fasta -bsequence formosa_agariphila.fasta -outfile protein_align.fasta -auto "). Исходные последовательности и выравнивание в формате fasta и в виде файла проекта JalView:

Выравнивание белков можно увидеть на рис.2

protein_align

Рис.2. Выравнивание белков β-порфириназы из Zobellia galactinovorans и одноименного гомолога из Formosa agariphila, полученное с помощью программы needle.

Далее мною были получена последовательность гена, кодирующего β-порфириназу из Formosa agariphila с помощью команды "seqret embl:CDF79851.1 " и построено выравнивание с помощью needle(см. рис. 3.). Файл с нуклеотидной последовательностью Formosa agariphila и выравнивание в fasta и jar форматах:

nucl_alignk

Рис.3. Выравнивание генов белков β-порфириназы из Zobellia galactinovorans и одноименного гомолога из Formosa agariphila, полученное с помощью программы needle.

Затем с помощью tranalign было построено еще одно выравнивание нулеотидных последовательностей(" tranalign -asequence both.fasta -bsequence protein_align.fasta -outseq nucl_prot_align.fasta")(см. рис. 4.). Файл с обеими последовательностями в формате fasta и полученный файл выравнивания в fasta и jar:

nucl_prot_align

Рис.4. Выравнивание генов белков β-порфириназы из Zobellia galactinovorans и одноименного гомолога из Formosa agariphila, полученное с помощью программы tranalign.

Выравнивание белков достаточно хорошее, т.к содержит продолжительные консервативные блоки, что может свидетельствовать о гомологии данных белков. Из выравнивания генов, полученного с помощью tranalign также можно сделать похожее заключение. В то же время выравнивание, полученное needle относительно бессмысленно. В нем есть гэпы длиной , не кратной трем, что не дает возможность с достаточными основаниями судить о гомологии белков. Дело в том, что, во-первых, нуклеотидов всего 4, что создает большое количество выравниваний со схожими очками, не имеющими при этом никакого биологического смысла. Кроме этого, needle воспринимает нуклеотиды как аминокислоты, что приводит к тому, что, к примеру, веса выравниваний А-А и G-G отличаются( причем значительно, т.к за глицин ставится большое количество очков, а за алании - намного меньшее). Таким образом needle абсолютно не годится для выравнивания нуклеотидных последовательностей. Tranalign показывает значительно лучшие результаты, так как использует в выравнивании информацию о выравнивании белков, что значительно улучшает качество нуклеотидного выравнивания.

Поиск в нуклеотидном банке NCBI по имени гена

Для поиска в нуклеотидном банке NCBI был выбран белок COF1 дрожжей Saccharomyces cerevisiae из первого задания. Результаты поиска - 125 найденных записей. Из них 18 принадлежат бактериям, 26 получены с мРНК, 41 - относятся к базе RefSeq. Многие записи повторяют друг друга, есть непровереные, рядом находятся как и целые геномы, так и их отдельные куски. Поиск в таком виде явно затруднен. Advanced search((COF1[Gene Name]) AND Saccharomyces cerevisiae[Organism] ) сокращает выдачу 18 результатов, но все равно имеется множество отдельных кусков одного и того же. В целом пользваться им можно, но SRS справляется со своей задачей намного лучше.

Последняя дата изменения: 20.12.2013
Все материалы разрешается использовать только при извещении правообладателя.
© Penzar Dmitry. All rights reserved.
Flag Counter Valid HTML 4.01 Strict Valid CSS!