Аннотирование фрагмента генома Klebsiella pneumoniae.
На главную страницу
третьего семестра
Задача: получить заданный фрагмент генома Klebsiella pneumoniae из файла kpn_genome.fasta; oпределить,
есть ли в этом фрагменте гены, похожие на гены бактерии-прототипа Escherichia coli K-12.
Определение инструментов для решения поставленной задачи, а также тип данных, среди которых будет вестись поиск.
Что/где искать: для рассмотрения задан фрагмент генома Klebsiella pneumoniae 3889583-3899582 (10000 нуклеотидов). В
итоге, нужно определить, есть ли в этом фрагменте гены, похожие на гены E.coli. Следовательно, пробная посл-ть -
рассматриваемый фрагмент; индексный файл составлен для полного протеома Escherichia coli K-12.
С помощью чего искать:
для выполнения поставленной задачи была выбрана программа BLASTP пакета BLAST. Эта программа хорошо зарекомендовала себя
для поиска гомологов в близкородственных организмах (см. результаты предыдущих упражнений). Здесь пробная последовательность - последовательность белка (т.е. надо будет еще получить транслированную последовательность (а.о.) для фрагмента генома Klebsiella pneumoniae);
тип банка данных - белки.
Список необходимых на данном этапе команд:
Извлечение из фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов.
Использована программа getorf из пакета EMBOSS.
При этом использован стандартный для бактерий (bacterial; параметр -table) генетический код; открытой рамкой считается последовательность,
начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном (параметр -find; при правильном значении можно получить аминокислотные последовательности). Команда выглядит так: getorf -minsize 240 -table 11 -find 1
Результаты - см. файл.
Создание книги Excel, включающей информацию обо всех открытых рамках считывания в исследуемом фрагменте генома.
Сначала был создан список ORF-ов исследуемого фрагмента (выходной файл - for_excel.txt): grep '^>' kpn2jun2003_1.orf
Далее: в соответствии с указаниями составлялся скрипт, который выдает колонку чисел - количество находок для каждого ORF'а.
Персональная цель:
минимизировать число строк, избежав при этом потери качества.
Что важно, получен приемлeмый результат. Smart_script.chmod - весьма удобный маленький скрипт с большими возможностями применения :-)
Здесь информация обо всех открытых рамках считывания в исследуемом фрагменте генома (указаны: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных у E. coli при условии E-value<0,001).
На основании полученной таблицы описано взаимное расположение предполагаемых генов (т.е. открытых рамок, для которых нашелся сходный участок протеома E. coli) в заданном фрагменте. Вот первоначальная схема:
5’----[<= ген ХХХХ 3842-4759]- -[<= ген ВВВВ 5521-6036]---[=>ген НННН 6778-7383][=>ген СССС 7383-9998]----3’
-[=>ген АААА 4713-5504]-
Теперь "присвоим" конкретные имена генам (= название сходного гена у E. coli). В случае, когда 1 ORF'у "соответствует" 1 находка из E.coli, проблем с названием предполагаемого гена не возникает.
Сложнее, когда находок несколько. Допустим, что в таком случае название гена Klebsiella pneumoniae соответствует лучшей находке из протеома
Escherichia coli K-12 (приоритет E-value).
Для того, чтобы определить лучшую находку из E.coli, необходимо провести поиск программой BLASTP для каждого из рассматриваемых ORF'ов по протеому E.coli.
Для этих целей был создан еще один "маленький скрипт с большими возможностями". Результаты его работы:
Тогда:
5’----[<= ген yhjC 3842-4759]- -[<= ген rob 5521-6036]---[=>ген acrE 6778-7383][=>ген acrF 7383-9998]----3’
-[=>ген yddH 4713-5504]-
Cопоставим вышеприведенную схему со схемой взаимного расположения сходных аннотированных генов E. coli.
Итак, схема для E.coli К12: 5’---[<= ген yddH 1531306-1531875]-[=>ген acrЕ 3411886-3413043]-[=>ген acrF 3413055-3416159]-[=>ген yhjC 3670365-3671336]–[<= ген rob 4632464-4633333]---3’
Нетрудно заметить, что общим для обеих схем является расположение генов acrЕ и acrF (следуют друг за другом): acrЕ - ген, кодирующий белок-предшественник, обеспечивающий устойчивость к
акрифлавину (антибиотик), acrF - ген, кодирующий белок, обеспечивающий устойчивость к
акрифлавину.acrЕ и acrF - составляющие acrEF оперона. Ген yddH кодирует некий предполагаемый белок yddH. Положения этого гена, в целом, близки; однако на схеме для Klebsiella pneumoniae
очевидно его прекрывание с yhjC. В свою очередь,
yhjC - регуляторный ген (регулятор транскрипции HTH-типа); в схеме для кишечной палочки он располагаестя за генами acrF, acrЕ, а у Klebsiella pneumoniae, получается, до...
"Несовпадают" и положения/направления гена rob - right origin-binding protein (правый ориджин-прикрепляющий белок). Т.о. предсказанные гены "отображены" относительно фрагмента acrЕ-acrF.
Перекрывание генов: такое возможно у прокариот, когда, например, один ген является одновременно частью другого гена [например, одна половина гена может независимо кодировать белок, представляющий собой
часть белка, кодируемого целым геном]. Однако в моем случае уместнее все же говорить о перекрывании открытых рамок считывания.
Что, впринципе, возможно:
- перекрывание открытой и блокированной рамок считывания (т.е. когда в процессе отбора в одной из
рамок шло беспрепятственное накопление кодонов-терминаторов; возможно даже, что такое накопление оказалось благоприятным
для того, чтобы избежать синтеза нежелательных белков);
- использование перекрывающихся рамок считывания означает, что 1 последовательность ДНК
может кодировать 2 белка (правда в таком случае следует ожидать низкую гибкость, присущую кодирующей области).
Вообще, в рассматриваемом случае участок перекрывания
небольшой - только 46 нуклеотидов (такое объяснение возможно).
*** "Предыстория": сперва для выполнения поставленной задачи была выбрана программа BLASTX пакета BLAST.
Результаты поиска - см. файл. Видно, что практически для
каждого ORF'а найдено "соответствие" (и не одно...) в E. coli. При проверке полученных выравниваний
становится ясно, что значительную часть находок можно отнести к "случайным"; это связано с особенностями алгоритма работы BLASTX - проба транслируется в 6 рамках. Эта программа часто используется на первом этапе
анализа новых нуклеотидных последовательностей для предсказания кодирующих участков (интересно посмотреть на результат для Klebsiella pneumoniae). Здесь пробная последовательность - НК;
тип пробы - транслированная НК; тип банка данных - белки.
Итак, программы пакета BLAST - только первый этап предсказания генов. Теоретические выкладки необходимо подтвержать экспериментально.
©NADEZDA TUKHTUBAEVA,2006