Аннотирование фрагмента генома Klebsiella pneumoniae.

На главную страницу третьего семестра

Задача: получить заданный фрагмент генома Klebsiella pneumoniae из файла kpn_genome.fasta; oпределить, есть ли в этом фрагменте гены, похожие на гены бактерии-прототипа Escherichia coli K-12.

Определение инструментов для решения поставленной задачи, а также тип данных, среди которых будет вестись поиск.

Что/где искать: для рассмотрения задан фрагмент генома Klebsiella pneumoniae 3889583-3899582 (10000 нуклеотидов). В итоге, нужно определить, есть ли в этом фрагменте гены, похожие на гены E.coli. Следовательно, пробная посл-ть - рассматриваемый фрагмент; индексный файл составлен для полного протеома Escherichia coli K-12.
С помощью чего искать: для выполнения поставленной задачи была выбрана программа BLASTP пакета BLAST. Эта программа хорошо зарекомендовала себя для поиска гомологов в близкородственных организмах (см. результаты предыдущих упражнений). Здесь пробная последовательность - последовательность белка (т.е. надо будет еще получить транслированную последовательность (а.о.) для фрагмента генома Klebsiella pneumoniae); тип банка данных - белки.
Список необходимых на данном этапе команд:

получение фрагмента (с указанием начала/конца интересующего участка; выходной файл - kpn2jun2003.fasta):
```
seqret kpn_genome.fasta -sask
```
получение полного протеома кишечной палочки в формате FASTA (выходной файл - 3mg1_ecoli.fasta):
```
seqret sw:*_ecoli
```
получение индексных файлов:
```
formatdb -i 3mg1_ecoli.fasta -p T -n 3ec
```

Извлечение из фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов.

Использована программа getorf из пакета EMBOSS. При этом использован стандартный для бактерий (bacterial; параметр -table) генетический код; открытой рамкой считается последовательность, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном (параметр -find; при правильном значении можно получить аминокислотные последовательности). Команда выглядит так:

getorf -minsize 240 -table 11 -find 1

Результаты - см. файл.

Создание книги Excel, включающей информацию обо всех открытых рамках считывания в исследуемом фрагменте генома.

Сначала был создан список ORF-ов исследуемого фрагмента (выходной файл - for_excel.txt):

grep '^>' kpn2jun2003_1.orf

Далее: в соответствии с указаниями составлялся скрипт, который выдает колонку чисел - количество находок для каждого ORF'а.
Персональная цель: минимизировать число строк, избежав при этом потери качества. Что важно, получен приемлeмый результат. Smart_script.chmod - весьма удобный маленький скрипт с большими возможностями применения :-)
Здесь информация обо всех открытых рамках считывания в исследуемом фрагменте генома (указаны: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных у E. coli при условии E-value<0,001).

На основании полученной таблицы описано взаимное расположение предполагаемых генов (т.е. открытых рамок, для которых нашелся сходный участок протеома E. coli) в заданном фрагменте. Вот первоначальная схема:

5’----[<= ген ХХХХ 3842-4759]-              -[<= ген ВВВВ 5521-6036]---[=>ген НННН 6778-7383][=>ген СССС 7383-9998]----3’
                    -[=>ген АААА 4713-5504]-

Теперь "присвоим" конкретные имена генам (= название сходного гена у E. coli). В случае, когда 1 ORF'у "соответствует" 1 находка из E.coli, проблем с названием предполагаемого гена не возникает. Сложнее, когда находок несколько. Допустим, что в таком случае название гена Klebsiella pneumoniae соответствует лучшей находке из протеома Escherichia coli K-12 (приоритет E-value).
Для того, чтобы определить лучшую находку из E.coli, необходимо провести поиск программой BLASTP для каждого из рассматриваемых ORF'ов по протеому E.coli. Для этих целей был создан еще один "маленький скрипт с большими возможностями". Результаты его работы:

Тогда:

5’----[<= ген yhjC 3842-4759]-              -[<= ген rob 5521-6036]---[=>ген acrE 6778-7383][=>ген acrF 7383-9998]----3’
                    -[=>ген yddH 4713-5504]-

Cопоставим вышеприведенную схему со схемой взаимного расположения сходных аннотированных генов E. coli.
Итак, схема для E.coli К12:

5’---[<= ген yddH 1531306-1531875]-[=>ген acrЕ 3411886-3413043]-[=>ген acrF 3413055-3416159]-[=>ген yhjC 3670365-3671336]–[<= ген rob 4632464-4633333]---3’

Нетрудно заметить, что общим для обеих схем является расположение генов acrЕ и acrF (следуют друг за другом): acrЕ - ген, кодирующий белок-предшественник, обеспечивающий устойчивость к акрифлавину (антибиотик), acrF - ген, кодирующий белок, обеспечивающий устойчивость к акрифлавину.acrЕ и acrF - составляющие acrEF оперона. Ген yddH кодирует некий предполагаемый белок yddH. Положения этого гена, в целом, близки; однако на схеме для Klebsiella pneumoniae очевидно его прекрывание с yhjC. В свою очередь, yhjC - регуляторный ген (регулятор транскрипции HTH-типа); в схеме для кишечной палочки он располагаестя за генами acrF, acrЕ, а у Klebsiella pneumoniae, получается, до... "Несовпадают" и положения/направления гена rob - right origin-binding protein (правый ориджин-прикрепляющий белок). Т.о. предсказанные гены "отображены" относительно фрагмента acrЕ-acrF.

Перекрывание генов: такое возможно у прокариот, когда, например, один ген является одновременно частью другого гена [например, одна половина гена может независимо кодировать белок, представляющий собой часть белка, кодируемого целым геном]. Однако в моем случае уместнее все же говорить о перекрывании открытых рамок считывания. Что, впринципе, возможно:

перекрывание открытой и блокированной рамок считывания (т.е. когда в процессе отбора в одной из рамок шло беспрепятственное накопление кодонов-терминаторов; возможно даже, что такое накопление оказалось благоприятным для того, чтобы избежать синтеза нежелательных белков);
использование перекрывающихся рамок считывания означает, что 1 последовательность ДНК может кодировать 2 белка (правда в таком случае следует ожидать низкую гибкость, присущую кодирующей области). Вообще, в рассматриваемом случае участок перекрывания небольшой - только 46 нуклеотидов (такое объяснение возможно).

*** "Предыстория": сперва для выполнения поставленной задачи была выбрана программа BLASTX пакета BLAST. Результаты поиска - см. файл. Видно, что практически для каждого ORF'а найдено "соответствие" (и не одно...) в E. coli. При проверке полученных выравниваний становится ясно, что значительную часть находок можно отнести к "случайным"; это связано с особенностями алгоритма работы BLASTX - проба транслируется в 6 рамках. Эта программа часто используется на первом этапе анализа новых нуклеотидных последовательностей для предсказания кодирующих участков (интересно посмотреть на результат для Klebsiella pneumoniae). Здесь пробная последовательность - НК; тип пробы - транслированная НК; тип банка данных - белки.

Итак, программы пакета BLAST - только первый этап предсказания генов. Теоретические выкладки необходимо подтвержать экспериментально.