Главная страница > Третий семестр > Отчет за первый блок
Рассмотрен фрагмент генома
Klebsiella pneumoniae длиной 1000 bp (3859583 ―
3869583).
Фрагмент был получен из файла kpn_genome.fasta,
содержащего полный геном, с помощью программы
seqret:
seqret kpn_genome.fasta kpn.fasta -sbegin1 3859583 -send1 3869583 -sreverse N
Аннотирование фрагмента генома было проведено с помощью программ TBLASTN и BLASTP. TBLASTN позволяет осуществлять поиск участков нуклеотидных последовательностей, трансляты которых сходны с входной белковой последовательностью, BLASTP ― поиск белков протеома, последовательности которых сходны со входной белковой последовательностью. Данные программы наиболее удобны для выявления в составе нуклеотидных последовательностей генов, кодирующих белки, по причинам, приведенным ниже.
TBLASTN и BLASTP строят выравнивания белковых последовательностей (TBLASTN предварительно транслирует банк данных в шести рамках). Это позволяет уменьшить длину якоря, учесть вырожденность генетического кода (практически каждое третье основание гена белка не находится под давлением отбора) и, тем самым, повысить качество выравниваний (например, избежать разбиения выравниваний на короткие фрагменты, см. "Поиск с помощью BLASTN"). Помимо TBLASTN и BLASTP, выравнивания белковых последовательностей могут быть построены с помощью программ BLASTX и TBLASTX.
В качестве входных данных TBLASTN и BLASTP используют белковые последовательности. Это позволяет избежать появления ложных находок, возникающих в результате транслирования входных нуклеотидных последовательностей в шести рамках (выявленные с помощью getorf возможные рамки считывания могут быть транслированы единственным способом). В этом отношении TBLASTN и BLASTP имеют преимущество перед BLASTX и TBLASTX.
Таким образом, был проведен поиск участков последовательности генома E.coli, трансляты которых сходны с транслятами предположительных рамок считывания, и поиск белков протеома E.coli, сходных с транслятами предположительных рамок считывания. Команды Linux, с помощью которых были запущены программы getorf (для выявления рамок считывания во фрагменте генома K.pneumoniae и их трансляции) и formatdb (для создания индексных файлов к геному E.coli), приведены ниже:
getorf kpn.fasta
orf.fasta -minsize 240 -table bacterial -find 1
formatdb -i ecoli.embl -p F -n eco
Для проведения поиска с помощью TBLASTN и BLASTP было создано по два скрипта Linux, предназначенные для построения списка количеств значимых находок (порог e-value выбран равным 0.001) и списка выдач программ для каждой из выявленных рамок считывания. Ссылки на тексты скриптов и результаты их выполнения приведены в таблице:
Программа |
|
|
Скрипт для построения списка количеств значимых находок |
Результат выполнения |
Результат выполнения |
Скрипт для построения списка выдач программ |
Результат выполнения |
Результат выполнения |
Таблица Excel, содержащая информацию о координатах выявленных с помощью getorf рамок считывания и количествах значимых находок, сделанных с помощью TBLASTN и BLASTP |
Выявление генов в составе фрагмента генома K.pneumoniae проводилось путем сравнения координат выравниваний лучших находок программы BLASTP и длин последовательностей соответствующих им белков E.coli, а также с помощью сопоставления координат выравниваний лучших находок программы TBLASTN и координат генов E.coli, указанных в записи EMBL U00096. Проблемы, возникшие при этом, и способы, которыми они были разрешены, перечислены ниже.
Некоторым перекрывающимся или близлежащим рамкам считывания соответствует один и тот же белок протеома и один и тот же ген (например, рамкам 1..591, 453..731 и 497..802 на прямой цепи соответствует ген yfjB E.coli, кодирующий НАД-киназу). Так как каждая рамка считывания оканчивается стоп-кодоном, предполагаемый ген yfjB K.pneumoniae должен включать в свой состав не менее двух стоп-кодонов. Глобальное выравнивание участка 1..805 фрагмента генома K.pneumoniae и последовательности гена yfjB E.coli, построенное с помощью программы needle, подтвердило наличие двух стоп-кодонов UGA в составе последовательности предполагаемого гена K.pneumoniae. Появление стоп-кодонов вызвано двумя делециями длиной в один нуклеотид у K.pneumoniae. В результате делеций произошел сдвиг рамки считывания. Это привело к тому, что ранее некодирующие триплеты UGA стали кодирующими, и, таким образом, в середине последовательности гена возникли стоп-кодоны. При транскрипции и дальнейшей трансляции такого участка нуклеотидной последовательности полученный белок будет значительно отличаться от соответствующего белка E.coli, и, скорее всего, перестанет выполнять какие-либо функции в клетке. Это приведет (или уже привело) к тому, что мутировавший ген и его регуляторные последовательности выйдут из-под давления отбора, что повлечет за собой быстрое накопление в них точечных мутаций. Это вызовет прекращение транскрипции данного участка ДНК. Высокое сходство последовательности участка 1..805 фрагмента генома K.pneumoniae и последовательности гена yfjB E.coli по всей их длине говорит о том, что делеции произошли относительно недавно. Таким образом, ген yfjB K.pneumoniae оказался "выключенным" (можно предположить, что при выращивании K.pneumoniae на искусственной среде продукт гена не нужен бактерии). Возможно также, что появление делеций связано с ошибками при проведении секвенирования. В этом случае высокое сходство данных последовательностей обусловлено давлением отбора.
Начало последовательностей некоторых генов E.coli (например, recN и smpA) и их продуктов не соответствует началу предположительных рамок считывания. Как показали выравнивания, построенные TBLASTN, кодон, кодирующий первый остаток полипептидной цепи (формилметионин) располагается внутри соответствующих рамок считывания на некотором удалении от их 5'-конца. При этом рамки считывания также начинаются с триплета AUG. Таким образом, программы getorf сочла кодон формилметионина одним из метиониновых кодонов внутри рамки считывания, а триплет AUG, не входящий в состав гена, ― первым кодоном гена. Координаты начала генов recN и smpA K.pneumoniae были вычислены путем прибавления к координате начала рамки считывания расстояния между триплетами AUG.
Первым аминокислотным остатком некоторых находок программы BLASTP (например, SsrA-связывающего белка E.coli, кодируемого геном smpB) является не метионин. Это свидетельствует о том, что данный белок претерпел посттрансляционную модификацию, в результате которой был утерян N-концевой участок его последовательности. Выяснение того, представляет ли этот участок остаток формилметионина или пептид, состоящий из нескольких аминокислотных остатков, возможно только путем анализа выравнивания, полученного с помощью программы TBLASTN (начало предполагаемой рамки считывания может не совпадать с действительным началом гена, см. выше). Таким образом, уточнение координаты начала гена smpB K.pneumoniae возможно только при использовании TBLASTN.
Проблемы, возникшие при определении координат начала генов K.pneumoniae, не помешали определению координат концов генов. В качестве координат концов генов были выбраны координаты стоп-кодонов (концов предполагаемых рамок считывания), которые всегда располагались на небольшом расстоянии от концов выравниваний лучших находок или совпадали с ними. Из-за отличий продуктов генов K.pneumoniae и E.coli по последним аминокислотным остаткам, TBLASTN и BLASTP, как правило, не доводили выравнивание до конца последовательностей, см. "Поиск в неаннотированных геномах генов, кодирующих белки, похожие на заданный". Для получения координаты конца гена координаты концов рамок считывания были увеличены на 3 (как показало сравнение координат выравниваний TBLASTN с координатами генов E.coli, стоп-кодон не входит в состав рамок считывания). Структуры рассмотренного фрагмента генома K.pneumoniae и участка генома E.coli, содержащего те же гены, приведены на рис. 1 и 2.
3'-----------------------------------------------[<= yfjG; 3384..3860]------------------------------------------------5' 5'-[=> recN; 892..2550]---[=> smpA; 2698..3039]-------------------------[=> smpB; 3971..4453]---[=> intA; 5127..6374]-3' |
Рис. 1.
Структура фрагмента генома K.pneumoniae (3859583 ―
3869583).
3'------------------------------------------------------------------------------------------[<= yfjF; 2752030..2752320]-- 5'-[=> yfjB; 2748853..2749731]---[=> recN; 2749817..2751478]---[=> smpA; 2751627..2751968]------------------------------- --[<= yfjG; 2752310..2752786]------------------------------------------------------------------------------------------5' -------------------------------[=> smpB; 2752918..2753400]---[=> ssrA; 2753615..2753977]---[=> intA; 2754181..2755422]-3' |
Рис. 2.
Структура участка генома E.coli (2748853 ―
2755422).
Полученная структура фрагмента генома K.pneumoniae (3859583 ― 3869583) в целом соответствует структуре участка генома E.coli (2748853 ― 2755422), приведенного в записи EMBL U00096. Имеющиеся расхождения рассмотрены ниже.
В составе фрагмента генома K.pneumoniae отсутствует гомолог гена yfjB E.coli (о причинах см. выше).
В составе фрагмента генома K.pneumoniae отсутствует гомолог гена yfjF E.coli. Среди находок TBLASTN и BLASTP имеются достаточно короткие выравнивания, соответствующие центральным участкам данного гена. Для проверки возможности вхождения гена yfjF в состав рассмотренного фрагмента генома K.pneumoniae было построено глобальное выравнивание участка генома K.pneumoniae, расположенного между генами smpA и yfjG (3040 ― 3383), и последовательности гена yfjF E.coli (выравнивание построено с помощью программы needle). Результаты выравнивания показали наличие двух делеций и одной инсерции в составе участка генома K.pneumoniae, соответствующего гену yfjF E.coli. Кроме того, старт-кодон yfjF E.coli (UAU, кодирует тирозин, а не формилметионин) отличается от соответствующего триплета K.pneumoniae (AAU). Таким образом, ген yfjF K.pneumoniae "выключен", как и yfjB. Высокое сходство участка генома K.pneumoniae, соответствующего гену yfjF, указывает на то, что "выключение" произошло относительно недавно.
В геноме E.coli между генами smpB и intA расположен ген ssrA, кодирующий тмРНК (транспортно-матричную РНК). тмРНК обеспечивают снятие ареста с рибосом, транслировавших мРНК без стоп-кодона. Так как ген, кодирующий РНК, не может быть выявлен с помощью программы getorf (в составе генов РНК отсутствуют старт- и стоп-кодоны), ssrA отсутствует среди находок TBLASTN (BLASTP осуществляет поиск по протеому, и среди его находок тем более отсутствуют РНК). Для проверки наличия гена ssrA в составе фрагмента генома K.pneumoniae было построено глобальное выравнивание участка генома K.pneumoniae, расположенного между генами smpB и intA (4454 ― 5126), и последовательности гена ssrA E.coli (выравнивание построено с помощью программы needle). Выравнивание подтвердило наличие гена ssrA в составе генома K.pneumoniae, а также показало высокую консервативность данного участка ДНК (в отличие от генов белков, в генах РНК практически каждое основание находится под давлением отбора). Схема участка генома K.pneumoniae (3859583 ― 3869583), включающая ген ssrA, приведена на рис. 3.
3'-----------------------------------------------[<= yfjG; 3384..3860]------------------------- 5'-[=> recN; 892..2550]---[=> smpA; 2698..3039]-------------------------[=> smpB; 3971..4453]-- ------------------------------------------------5' --[=> ssrA; 4597..4951]---[=> intA; 5127..6374]-3' |
Рис. 3.
Структура фрагмента генома K.pneumoniae (3859583 ―
3869583).
Таким образом, расположение генов в аннотированном фрагменте генома K.pneumoniae совпадает с расположением генов во фрагменте генома E.coli (2748853 ― 2755422), но два гена (yfjB и yfjF) "выключены" в результате делеций, повлекших за собой сдвиг рамки считывания. Высокое сходство участков геномов двух организмов связано с высокой степенью их родства (по данным NCBI Taxonomy Browser, K.pneumoniae и E.coli принадлежат к одному и тому же семейству Enterobacteriaceae).
Для быстрого выявления продукта, кодируемого предполагаемыми рамками считывания, наиболее удобной оказалась программа BLASTP. Это обусловлено следующими причинами:
TBLASTN дает определенное количество ложных находок, возникающих при сопоставлении транслятов некодирующих участков генома с транслятами рамок считывания. Так как некоторые рамки считывания, выявленные с помощью программы getorf, представляют собой достаточно консервативные некодирующие участки (возможно, регуляторные последовательности), они были сопоставлены программой с соответствующими им участками генома E.coli. Таким образом, необходимо сравнение координат каждой находки TBLASTN с координатами генов E.coli. В отличие от TBLASTN, все находки BLASTP являются белковыми последовательностями, что позволяет сократить время, затрачиваемое на аннотирование.
Координаты выравниваний TBLASTN и координаты генов являются семизначными числами. Их сравнение занимает больше времени, чем сравнение двух- или трехзначных координат выравниваний BLASTP с длиной белковых последовательностей.
Однако, точное определение координат
генов возможно только путем анализа выравниваний TBLASTN.
Это связано с тем, что некоторые белки претерпевают
посттрансляционные модификации, сопровождающиеся утратой первого
аминокислотного остатка или нескольких первых остатков. Выравнивание
последовательности такого белка и участка транслята предполагаемой рамки
считывания не позволяет определить координату начала гена, которая может не
соответствовать координате начала рамки считывания (программа
getorf не способна точно определить координату начала
рамки считывания, см. выше). Проблема может быть решена путем анализа
выравниваний полной последовательности транслята рамки считывания и
транслята соответствующего участка генома E.coli,
построенных с помощью TBLASTN.
© Куравский Михаил Львович, 2006