credit1

На главную страницу третьего семестра

Результаты выполнения первого зачетного задания.

Данные:

Задача.

Определить, кодирует ли отрезок нуклеотидной последователности (4174583-4179582 н.о.) из генома Klebsiella pneumoniae какие-либо белки, схожие с белками из прототипного организма Salmonella typhimurium.


Ход работы, результаты и коментарии.

Исследуемый кусок последовательности вырезается1 из генома Klebsiella pneumoniae в соответствии с заданными границами (4174583-4179582). (здесь и далее индексное число обозначает номер проводимой операции и соответствует номеру команды (см. "Список команд"))
Затем необходимо проанализировать нуклеотидный отрезок на наличие кодирующих участков. Причем поиск должен проводится в белковой последовательности (протеоме Salmonella typhimurium). Ясно, что для данной задачи наилучшим образом подходит программа BLASTX из пакета программ BLAST. Чтобы воспользоваться ею, мы должны составить индексный файл2 по протеому Salmonella typhimurium. После работы с программой BLASTX3 из выходного файла kpn_prot_out были получены границы кодирующих участков в исследуемом отрезке и названия кодируемых белков:
3'---[<=Q8ZMB6_SALTY, 4174584-4175498]---[<=PTRA_SALTY, 4175504-4178380 ]---[<=Q8ZMB4_SALTY, 4178513-4179580]---5'
5'---[=>Q8ZMB6_SALTY, 4174584-4175498]---[=>PTRA_SALTY, 4175504-4178380 ]---[=>Q8ZMB4_SALTY, 4178513-4179580]---3'
Дальше программе SRS даются на вход полученные ID белков (кодируемых на отрезке генома Klebsiella pneumoniae) и ведется их поиск в бактерии-прототипе.
Результат:

Название белка БД Описание Название гена Длина а/к последовательности
PTRA_SALTY Swiss-Prot протеаза III ptrA 962
Q8ZMB6_SALTY TrEMBL экзонуклеаза V, бета-цепь recB 1181
Q8ZMB4_SALTY TrEMBL экзонуклеаза V, структурная подъединица recC 1123

В БД Swiss-Prot находится только PTRA_SALTY. Два других обнаруживаются в БД TrEMBL, что говорит о непроверенности их аминокислотной последовательности и существования вообще. Помимо этого они являются гомологами.
На последнем шаге извлекается информация об этих белках из БД EMBL (с помощью кнопки "Link"). Причем вытаскивается информация о полном геноме с 141 по 220 секцию - документ с "Accession number" AE008837.
На его основе строится расположение в геноме прототипного организма генов, кодирущих белки, гомологичные белкам, закодированным в исследуемом отрезке генома:

3'---[<=ген recB, 8387-11932]---[<=ген ptr, 11925-14824]---[<=ген recC, 14991-18373]---5'
5'---[=>ген recB, 8387-11932]---[=>ген ptr, 11925-14824]---[=>ген recC, 14991-18373]---3'
И расположение генов в исследуемом фрагменте Klebsiella pneumoniae:
3'---[<=ген recB, 4174584-4175498]---[<=ген ptr, 4175504-4178380 ]---[<=ген recC, 4178513-4179580]---5'
5'---[=>ген recB, 4174584-4175498]---[=>ген ptr, 4175504-4178380 ]---[=>ген recC, 4178513-4179580]---3'
Сравнивая теперь расположения генов в двух организмах, можно отметить как общее то, что они в одинаковом порядке следуют друг за другом. Несовпадение номеров нуклеотидных остатков объясняется тем, что геном Klebsiella pneumoniae почти в 2,5 раза больше генома бактерии-прототипа.
Отдельного внимания заслуживает "наложение" генов друг на друга, которое наблюдается с recB и ptr. Кроме того, по документу AE008837 следует, что на начало гена recB приходится конец гена recD. Да и вообще явление перекрывания, как видно, не такое уж и редкое. Объяснить его можно с точки зрения разных рамок считывания, когда в зависимости от варианта чтения нуклеотидной последовательности в ней находятся разные смысловые (то есть несущие генетическую информацию) участки.

Список команд.

  1. seqret kpn_genome.fasta -sask
  2. formatdb -
    formatdb -i salty_proteome.fasta -p T -n salty
  3. blastall -p blastx -d salty -i kpn_part.fasta -o kpn_prot_out -e 0.001

©Куликовский, Алексей