Главная страница > Третий семестр > Отчет за первый блок 

Аннотирование фрагмента генома Klebsiella pneumoniae


   
    Рассмотрен фрагмент генома Klebsiella pneumoniae длиной 1000 bp (3859583 ― 3869583). Фрагмент был получен из файла kpn_genome.fasta, содержащего полный геном, с помощью программы
seqret:

seqret kpn_genome.fasta kpn.fasta -sbegin1 3859583 -send1 3869583 -sreverse N

    Аннотирование фрагмента генома было проведено с помощью программ TBLASTN и BLASTP. TBLASTN позволяет осуществлять поиск участков нуклеотидных последовательностей, трансляты которых сходны с входной белковой последовательностью, BLASTP ― поиск белков протеома, последовательности которых сходны со входной белковой последовательностью. Данные программы наиболее удобны для выявления в составе нуклеотидных последовательностей генов, кодирующих белки, по причинам, приведенным ниже.

    Таким образом, был проведен поиск участков последовательности генома E.coli, трансляты которых сходны с транслятами предположительных рамок считывания, и поиск белков протеома E.coli, сходных с транслятами предположительных рамок считывания. Команды Linux, с помощью которых были запущены программы getorf (для выявления рамок считывания во фрагменте генома K.pneumoniae и их трансляции) и formatdb (для создания индексных файлов к геному E.coli), приведены ниже:

getorf kpn.fasta orf.fasta -minsize 240 -table bacterial -find 1
formatdb -i ecoli.embl -p F -n eco

    Для проведения поиска с помощью TBLASTN и BLASTP было создано по два скрипта Linux, предназначенные для построения списка количеств значимых находок (порог e-value выбран равным 0.001) и списка выдач программ для каждой из выявленных рамок считывания. Ссылки на тексты скриптов и результаты их выполнения приведены в таблице:

Программа
TBLASTN
BLASTP
Скрипт для построения списка количеств значимых находок
Текст скрипта
Результат выполнения
Текст скрипта
Результат выполнения
Скрипт для построения списка выдач программ
Текст скрипта
Результат выполнения
Текст скрипта
Результат выполнения

Таблица Excel, содержащая информацию о координатах выявленных с помощью getorf рамок считывания и количествах значимых находок, сделанных с помощью TBLASTN и BLASTP

    Выявление генов в составе фрагмента генома K.pneumoniae проводилось путем сравнения координат выравниваний лучших находок программы BLASTP и длин последовательностей соответствующих им белков E.coli, а также с помощью сопоставления координат выравниваний лучших находок программы TBLASTN и координат генов E.coli, указанных в записи EMBL U00096. Проблемы, возникшие при этом, и способы, которыми они были разрешены, перечислены ниже.

    Проблемы, возникшие при определении координат начала генов K.pneumoniae, не помешали определению координат концов генов. В качестве координат концов генов были выбраны координаты стоп-кодонов (концов предполагаемых рамок считывания), которые всегда располагались на небольшом расстоянии от концов выравниваний лучших находок или совпадали с ними. Из-за отличий продуктов генов K.pneumoniae и E.coli по последним аминокислотным остаткам, TBLASTN и BLASTP, как правило, не доводили выравнивание до конца последовательностей, см. "Поиск в неаннотированных геномах генов, кодирующих белки, похожие на заданный". Для получения координаты конца гена координаты концов рамок считывания были увеличены на 3 (как показало сравнение координат выравниваний TBLASTN с координатами генов E.coli, стоп-кодон не входит в состав рамок считывания). Структуры рассмотренного фрагмента генома K.pneumoniae и участка генома E.coli, содержащего те же гены, приведены на рис. 1 и 2.


 

  3'-----------------------------------------------[<= yfjG; 3384..3860]------------------------------------------------5'  

  5'-[=> recN; 892..2550]---[=> smpA; 2698..3039]-------------------------[=> smpB; 3971..4453]---[=> intA; 5127..6374]-3'

    Рис. 1. Структура фрагмента генома K.pneumoniae (3859583 ― 3869583).
 


 

  3'------------------------------------------------------------------------------------------[<= yfjF; 2752030..2752320]--  

  5'-[=> yfjB; 2748853..2749731]---[=> recN; 2749817..2751478]---[=> smpA; 2751627..2751968]-------------------------------


  --[<= yfjG; 2752310..2752786]------------------------------------------------------------------------------------------5'

  -------------------------------[=> smpB; 2752918..2753400]---[=> ssrA; 2753615..2753977]---[=> intA; 2754181..2755422]-3'

    Рис. 2. Структура участка генома E.coli (2748853 ― 2755422).
 


    Полученная структура фрагмента генома K.pneumoniae (3859583 ― 3869583) в целом соответствует структуре участка генома  E.coli (2748853 ― 2755422), приведенного в записи EMBL U00096. Имеющиеся расхождения рассмотрены ниже.


 

  3'-----------------------------------------------[<= yfjG; 3384..3860]-------------------------  
  
  5'-[=> recN; 892..2550]---[=> smpA; 2698..3039]-------------------------[=> smpB; 3971..4453]--


  ------------------------------------------------5'  

  --[=> ssrA; 4597..4951]---[=> intA; 5127..6374]-3'

    Рис. 3. Структура фрагмента генома K.pneumoniae (3859583 ― 3869583).
 


    Таким образом, расположение генов в аннотированном фрагменте генома K.pneumoniae совпадает с расположением генов во фрагменте генома E.coli (2748853 ― 2755422), но два гена (yfjB и yfjF) "выключены" в результате делеций, повлекших за собой сдвиг рамки считывания. Высокое сходство участков геномов двух организмов связано с высокой степенью их родства (по данным NCBI Taxonomy Browser, K.pneumoniae и E.coli принадлежат к одному и тому же семейству Enterobacteriaceae).

    Для быстрого выявления продукта, кодируемого предполагаемыми рамками считывания, наиболее удобной оказалась программа BLASTP. Это обусловлено следующими причинами:

    Однако, точное определение координат генов возможно только путем анализа выравниваний TBLASTN. Это связано с тем, что некоторые белки претерпевают посттрансляционные модификации, сопровождающиеся утратой первого аминокислотного остатка или нескольких первых остатков. Выравнивание последовательности такого белка и участка транслята предполагаемой рамки считывания не позволяет определить координату начала гена, которая может не соответствовать координате начала рамки считывания (программа getorf не способна точно определить координату начала рамки считывания, см. выше). Проблема может быть решена путем анализа выравниваний полной последовательности транслята рамки считывания и транслята соответствующего участка генома E.coli, построенных с помощью TBLASTN.
 


© Куравский Михаил Львович, 2006