Аннотирование фрагмента генома Klebsiella pneumoniae

 

На главную страницу третьего семестра

  Фрагмент генома исследуемой бактерии длиной 7000 нп был использован для поиска сходных белковых последовательностый в базе данных, построенной на основе протеома Salmonella typhimurium с помощью программы formatdb. Поиск велся программой blastx, т. к. она позволяет искать белковые последовательности, исходя из нуклеотидных. 6 рамок трансляции позволяют снять проблему неоднозначности генетического кода. Все программы BLAST строят локальные выравнивания, поэтому сплайсинг и процессинг не являются проблемой для нас. Далее будет видно, что это весьма полезное свойство. Использовалась команда  blastall -p blastx -i e.fasta -o bl1.txt -d w.
3'--------------------------------------------5'
5'-[=> ген PIMT, 3-551]--[=>ген SURE, 548-1306]---[=>ген TRUD, 1290-2336]-[=>ген ISPF, 2336-2812]-[=>ген ISPD, 2815-3522]-[=>ген FTSB,3560-3859]-[=>ген Q7CPW6, 4039-4350]---[=> ген CYSC, 4380-4979]--[=> ген CYSN, 4985-6409]-[=> ген CYSD, 6422-7000]-3'

Что это за гены? Ниже приведен список белков, соответствующих каждому из транслятов обнаруженных генов.

PIMT - протеин-L-изоаспартат O-метилтрансфераза

SURE - многофункциональный белок surE (активности: 5'/3'-нуклеотидазная, экзополифосфатазная)

TRUD - тРНК псевдоуридинсинтаза D

ISPF - 2-C-метил-D-эритритол 2,4-циклодифосфатсинтаза

ISPF - 2-C-метил-D-эритритол 4-фостфатцитидилтрансфераза

FTSB - белок клеточного деления

Q7CPW6 - внутримембранный белок

CYSC - аденилатсульфаткиназа

CYSN - сульфатаденилаттрансфераза, субъединица 1

CYSD - сульфатаденилаттрансфераза, субъединица 2

На самом деле для этого конкретного участка представлено много вариантов выравниваний, из которых я не мудрствуя лукаво выбрала вариант с наименьшим e-value. К белкам-кандидатам на данный ген относятся в частности фактор элонгации Tu, селеноцистеинил тРНК-специфический фактор трансляции, ГТФ-связывающий белок (2 разных), ГТФ-связывающий фактор элонгации, фактор инициации трансляции IF-2, релиз-фактор (фактор освобождения) белковой цепи. Как видим, для многих заметно свойство в функциях, в частности, многие связываются с ГТФ. Отсюда можно сделать вывод, что есть определенное сходство в структуре этих белков, возможна даже та или иная степень гомологии. Тогда аминокислотные последовательности также должны быть схожи, поэтому, на мой взгляд, то, что при трансляции данного участка генома результат оказался похож на все вышеназванные белки, объясняется наличием на данном участке гена одного из этих белков и родством их между собой.

Обратим внимание, что ген SURE перекрывается с 2 соседними. Это перекрывание, однако, захватывает только края генов и может быть объяснено случайными причинами. Кроме того, перекрываются между собой гены ISPF и ISPD, CYSC и CYSN, CYSN и CYSD. Но первые 2 и последние 3 гена, сооответственно, кодируют отдельные домены 2 белков. Я сочла, что функционально эти гены объединяются в 2, возможно, непрерывно транслирующихся.

Используя обнаруженные AC белков было изучено расположение соответствующих генов в геноме Salmonella typhimurium по данным EMBL. Результат приведен ниже. Заметим, что взаимное расположение данных генов в геноме Klebsiella pneumoniae соответствует расположению в геноме исследуемой бактерии. Перекрывания имеют местов тех же местах, следовательно, могут быть объяснены теми же причинами.

5'--------------------------------------------3'

3'----[=> ген PIMT, 13354-13980]-[=> ген SURE, 13974-14735]-[=>ген TRUD, 14716-15765 ]-[=>ген ISPF, 15762-16241]-[=>ген ISPD, 16241-16951]-[=>ген FTSB, 16970-17281]-[=> ген Q7CPW6, 17472-17828]-----[=> ген CYSC, 17846-18451]-[=> ген CYSN, 18438-19877]-[=> ген CYSD, 19887-20795]------5'
Примечания по обозначениям: нумерация в первой схеме дана относительно исследуемого фрагмента, во второй - относительно полного генома. Расположение на второй строчке означает то, что ген находиттся на комплементарной цепи.
©Петрова Ирина