Самостоятельная работа

Дано: неаннотрованный участок генома бактерии Streptococcus pneumoniae (штамм TIGR4 ctg00822).

Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии (сенной палочки).

1. Получен фрагмент генома S.pneumoniae из заданной записи EMBL (AAGY02000001) с помощью программы seqret -sask (координаты последовательности: 49001-56001)

2. Были сделаны индексные файлы для поиска программами пакета blast.

makeblastdb -dbtype prot ...

3. C помощью программы getorf были получены трансляции всех открытых рамок считывания фрагмента (см. пункт 1) длиной не менее 240 нуклеотидов:

getorf -minsize 240 -find 1 -table 11 ...

4. C помощью программы blastp были найдены сходные последовательности в протеоме B. subtilis (E_value меньше 0.001).
В таблице приведены только те рамки считывания, для которых была найдена хотя бы одна такая последовательность.
Рамка считывания Начало-конец во фрагменте Направление Число сходных последовательностей, найденных программой blastp в протеоме при условии E_value меньше 0.001 Идентификатор самого близкого из найденных белков B. subtilis E-value находки
AAGY02000001_8 6342-6863 Прямое 1 YXIE_BACSU 2e-6
AAGY02000001_12 5802-4591 Обратное 11 AAT1_BACSU 7e-41
AAGY02000001_14 2827-2057 Обратное 1 YABD_BACSU 8e-71
AAGY02000001_15 2054-1497 Обратное 1 YABF_BACSU 1e-41

5. Схематическое изображение рамок считывания во фрагменте, полученном ранее и гомологичных этим рамкам белков в геноме B. subtilis
Рамки YABF и YABD расположены достаточно близко в обоих организмах (между ними только порядка 3000 п.о.). Это дает возможность предполагать, что в клетке белки, кодируемые этими участками, как-то функционально связаны.
Сначала мне показалось, что гены YABF, YABD, YXIE "перепрыгнули" на другую цепь, однако, вряд ли такое могдо произойти с таким количеством генов, скорее всего просто в записях, описывающих геномы B.subtilis и S. pneumoniae за "базовые" были взяты разные цепочки ДНК и свое положение поменял только ген AAT1.

Так как программа не учитывает стоп-кодон, к 3' концу необходимо прибавить три нуклеотида. В этом случае получится, что 15 ОРФ закончится на 2057 нуклеотиде, а 14 - начнется этим же нуклеотидом. Таким образом, происходит перекрывание рамок считывания на один нуклеотид. Это вполне возможно для генов прокариот.