На главную страницу третьего семестра.

Отчет по работе над зачетным заданием.


1. Определение возможных генов в сегменте генома Klebsiella pneumoniae на основании близко родственного аннотированного генома Escherichia coli K-12.


Для пробного аннотирования возможных генов в сегменте на основании генома E.Coli, я произвел следующие действия:
  1. скачал в папку Credit1 файл с сегментом в 10000 н.о. из генома Klebsiella pneumoniae.
  2. Используя команду

    seqret sw:*_ECOLI

    вытащил из банка SwissProt полный протеом бактерии E.Coli (сохранен в файле proteom.fasta).
  3. Создал индексные файлы для протеома E.Coli с помощью команды:

    formatdb -i proteom.fasta -p T -n pc

  4. Получил последовательности открытых рамок в заданном сегменте с помощью программы

    getorf -minsize 240 -table 11 -find 1

    (сохранены в файле orf.fasta) Всего найдено 33 возможных открытых рамок считывания.
  5. Создал скрипт-файл (script.chmod), одну из 33 строчек (количество определенных ORF'ов в сегменте) привожу здесь:

    seqret orf.fasta:KPN2Jun2003_1 stdout | blastall -p blastp -d pc -e 0.001 | grep -c Identities

    Этот конвейер позволяет:
    • Вытащить из файла orf.fasta определенную своим номером, открытую рамку считывания (обобщенное имя: KPN2Jun2003_№),
    • произвести локальное выравнивание этой белковой последовательности по протеому E.Coli и
    • подсчитать число выравниваний с e-value лучше, чем 0.001

Обоснование выбора программы и типа данных, по которым велся поиск. Задача упражнения - найти с высокой степенью достоверности (e-value < 0.001) возможные гомологичные гены в составе сегмента для генов E.Coli, дабы фактически картировать этот участок генома Klebsiella pneumoniae, на наличие генов определенных белков, родственных соответствующим белкам E.coli. Так как мы имеем дело с кодирующими последовательностями, то использовать программы, непосредственно использующие ДНК-последовательности для парного выравнивания (типа BlastN), не целесообразно из-за вырожденности генетического кода (третья позиция в кодоне сильно вариабельна). Также в алгоритме BlastN используется очень длинный якорь (в 11 нуклеотидов), отчего всегда есть высокая вероятность "зацепить что-то лишнее и пропустить что-то важное". Поэтому для повышения специфичности поиска, необходимо вести идентификацию возможных генов в сегменте, выравнивая белковые последовательности транскриптов кодирующего генома E.coli с предсказанными ORF'ами в заданном сегменте генома Klebsiella pneumoniae. Тогда здесь возможны два варианта работы:
По приведенным выше причинам, для выполнения поиска был выбран первый путь, в результате чего были получены некоторые результаты, которые представляют собой модель генетического строения участка ДНК из генома Klebsiella pneumoniae. Всего было сделано для 5-ти ORF'ов адекватные выравнивания с e-value<0.001, и только для одного из них получены выравнивания с шестью генами (в остальных случаях - выравнивания с одиночными генами E.coli, впрочем результаты подсчета представлены здесь, если интересно посмотреть на выравнивания - можно заглянуть сюда). Для ORF'а, который оказался выравненный с шестью генами, я выбрал в качастве возможного названия гомологичного гена в составе K.pneumoniae имя гена E.coli с наилучшим e-value в выравнивании, но учитывая, что почти все (пять из шести генов) кодируют один и тот же белок по функции - оксидоредуктазу, то особо сомневаться на счет значимой гомологии не пришлось.

Гипотетические гены во фрагменте 3869583-3879583, по данным выравнивания и без доработок:


Начало:

3'----------------------------------------------------------------------------------------------------------------------5'

5'--[=>ген sfsB, 6345-6650]--[=>ген srlA, (gutA) 6766-7284][=>ген srlB, (gutB) 7284-7655][=>ген srlE, (gutE) 7655-8632]-3'

Продолжение:

3'--------------------------5'
                            
5'-[=>ген ycjS, 8643-9185]--3'

Где соответствующий ген кодирует следующие белки:
Анализируя данное строение сегмента, хочется сказать следующее: в участке генома Klebsiella pneumoniae 3869583..3879583 локализован оперон, кодирующий гены для катаболизма углеводов: в данном случае сорбитола. Причем на этом же участке, в непосредственной близости от оперона, расположен ген "активатора катаболитных оперонов": белок - активатор катаболизма сахаров B, который, связываясь в области промотора данного оперона, способствует РНК-полимеразе транскрибировать гены белков целого метаболитического пути: распад сорбитола. С учетом огромного накопленного практического материала, можно предложить следующий сценарий активности оперона: повышение концентрации в клетке сорбитола (или просто появление субстрата в клетке) запускает цепную реакцию клеточного ответа: очевидно, он будет опосредован Gs-рецепторным комплексом, приводящим в действие aденилатциклазу, что приводит к повышению концентрации в клетке cAMP - важного вторичного мессенджера во многих метаболитических процессах. Также эта молекула выполняет роль кофактора в работе БАК: без cAMP этот белок не активен (в моем случае роль этого белка может выполнять продукт гена sfsB). Тогда активированный белок способствует связыванию РНК-полимеразы с опероном, как полагают, за счет повышения константы связывания РНК-полимеразы к промотору и быстрому переводу комплекса [РНК-полимераза<->ДНК] в открытое состояние, что приводит к транскрипции белков, ответственных за распад "топлива" - углеводов (в моем случае - сорбитол). Репрессия оперона может иметь самые разные сценарии, но можно предположить, следующее: когда в клетке нет сорбитола, то в области промотора с опероном связан белок-репрессор, подавляющий его транскрипцию, но с появлением молекул субстрата происходит связывание одной (или нескольких) с репрессором, что переводит его в иное конформационное состояние, которое уже не способно связываться с ДНК - следовательно, белок-репрессор отваливается от промотора, и уже ничто не мешает РНК-полимеразе транскрибировать оперон. Так этот тип организации сегмента и модель возможной активности оперона представлены следующим образом:


Идентификация положения генов у E.coli изучалась на полном геноме бактерии. В геноме E.Coli расположение возможных гомологов несколько отлично, а оперон катаболизма сорбитола/глюкозитола содержит куда больше генов, хотя все гены также расположены на смысловой ДНК (не на комплементарной):
Начало:

3'-----------------------------------------------------------------------------------------------------------------------------------------------------3'

5'--[=>ген ycjS, 1374856-1375911]--------[=>ген srlA, (gutA) 2823854-2824417][=>ген srlЕ, (gutE) 2824414-2825373]-[=>ген srlB, (gutB) 2825384-2825755]-5'


Продолжение:

3'--------------------------------------------------------------------------------------------------------------5'
                                                                                                              
5'-[=>ген srlD, (gutD) 2825759-2826538]---[=>ген gutM 2826643-2827002]---------[=>ген sfsB 3332931-3333209]-----3'


Сравнивая строение соотносимых участков генома E.Coli и Klebsiella pneumoniae можно отметить следующее:




©Володя Рудько