Предсказание генов

Дано: неаннотированный участок генома бактерии Ornithinibacillus scapharcae (штамм TW25).

Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии (сенной палочки).

Получаю фрагмент генома O.scapharcae из записи AEWH01000006 банка EMBL с заданным началом 217001, длиной 7000 нуклеотидов с помощью команды:

seqret AEWH01000006.embl -sask

Получаю файл bacsu.fasta, содержащий полный протеом B. subtilis из Swiss-Prot:

seqret sw:*_bacsu

Извлекаю из моего фрагмента генома трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов с помощью программы getorf из пакета EMBOSS. При этом использую стандартный для бактерий (bacterial) генетический код, открытой рамкой считаю последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном:

getorf aewh01000006.fasta -minsize 240 -find 1 -table 11 aewh01000006.orf

Результат - aewh01000006.orf. Нашлось 16 открытых рамок считывания.

grep ">" aewh01000006.orf > aewh01000006.txt

Полученную информацию о найденных открытых рамках считывания представляю в файле aewh01000006.xls.

С помощью BLAST нахожу сходные последовательности в протеоме B. subtilis при условии E-value<0,001:

makeblastdb -in bacsu.fasta -out bacsu -dbtype prot

blastp -db bacsu -query aewh01000006.orf -outfmt 6 -evalue 0.001 > blastp.txt -task blastp

Результат - blastp.txt.

Скрипт, которым из выдачи BLAST получено число гомологов для каждой рамки. Использовались:

noreturn one.txt; one.sh chmod +x one.sh; ./one.sh

Привожу таблицу, содержащую информацию о тех открытых рамках, для которых с помощью BLAST нашлась хотя бы одна сходная последовательность.

Таблица

Открытая рамка считывания

Начало во фрагменте

Конец во фрагменте

Направление

Число сходных посл-тей

Идентификатор самого близкого из найденных белков

E-value находки

>AEWH01000006_9

5878

5354

обратное

2

YUAI_BACSU

2,00E-23

>AEWH01000006_10

5190

4666

обратное

4

SIGM_BACSU

2,00E-13

>AEWH01000006_12

3338

2745

обратное

7

SIGW_BACSU

2,00E-18

>AEWH01000006_16

1253

198

обратное

2

SPPA_BACSU

7,00E-88

Представляю схематически положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в B. subtilis.

Гипотетические гены во фрагменте 217001–224000 записи AEWH01000006

3'-----------[<= sppa, 198-1253]--------------[<= sigw, 2745-3338]-----------5'
  5'---------------------------------------------------------------------------3'
3'-----------[<= sigm, 4666-5190]-------------[<= yuai, 5354-5878]-----------5'
  5'---------------------------------------------------------------------------3'

Значки => и <= обозначают прямую и комплементарную цепь ДНК соответственно, а парами квадратных скобок обозначены открытые рамки, в которых приведено краткое название самого сходного белка B. subtilis.

Сравниваю взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме сенной палочки. Для этого рассматриваю для каждого предсказанного гена наиболее сходный из белков Bacillus subtilis. Участки, кодирующие необходимые белки, нахожу в записи с последовательностью генома сенной палочки (AL009126).

Перекрывания отсутствуют. Все соответствующие гены в геноме B. subtilis расположены на очень большом растоянии друг от друга (на несколько порядков больше, по сравнению с моим фрагментом), что видно из их координат - sigw: 194849-195412; sigm: 1029577-1030068; sppa: 3020040-3021047; yuai: 3179926-3180447. Плюс взаимное расположение генов B. subtilis не совпадает с предсказанным положеним гипотетических. Данную группу никак нельзя считать консервативной.


© Eugenia Prokhorova 2011