Предсказание генов
Дано: неаннотированный участок генома бактерии Ornithinibacillus scapharcae (штамм TW25).
Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии (сенной палочки).
Получаю фрагмент генома O.scapharcae из записи AEWH01000006 банка EMBL с заданным началом 217001, длиной 7000 нуклеотидов с помощью команды:
Получаю файл bacsu.fasta, содержащий полный протеом B. subtilis из Swiss-Prot:
Извлекаю из моего фрагмента генома трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов с помощью программы getorf из пакета EMBOSS. При этом использую стандартный для бактерий (bacterial) генетический код, открытой рамкой считаю последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном:
Результат - aewh01000006.orf. Нашлось 16 открытых рамок считывания.
Полученную информацию о найденных открытых рамках считывания представляю в файле aewh01000006.xls.
С помощью BLAST нахожу сходные последовательности в протеоме B. subtilis при условии E-value<0,001:
blastp -db bacsu -query aewh01000006.orf -outfmt 6 -evalue 0.001 > blastp.txt -task blastp
Результат - blastp.txt.
Скрипт, которым из выдачи BLAST получено число гомологов для каждой рамки. Использовались:
Привожу таблицу, содержащую информацию о тех открытых рамках, для которых с помощью BLAST нашлась хотя бы одна сходная последовательность.
Таблица
Открытая рамка считывания |
Начало во фрагменте |
Конец во фрагменте |
Направление |
Число сходных посл-тей |
Идентификатор самого близкого из найденных белков |
E-value находки |
>AEWH01000006_9 |
5878 |
5354 |
обратное |
2 |
YUAI_BACSU | 2,00E-23 |
>AEWH01000006_10 |
5190 |
4666 |
обратное |
4 |
SIGM_BACSU | 2,00E-13 |
>AEWH01000006_12 |
3338 |
2745 |
обратное |
7 |
SIGW_BACSU | 2,00E-18 |
>AEWH01000006_16 |
1253 |
198 |
обратное |
2 |
SPPA_BACSU | 7,00E-88 |
Гипотетические гены во фрагменте 217001–224000 записи AEWH01000006
3'-----------[<= sppa, 198-1253]--------------[<= sigw, 2745-3338]-----------5' 5'---------------------------------------------------------------------------3'
3'-----------[<= sigm, 4666-5190]-------------[<= yuai, 5354-5878]-----------5' 5'---------------------------------------------------------------------------3'
Значки => и <= обозначают прямую и комплементарную цепь ДНК соответственно, а парами квадратных скобок обозначены открытые рамки, в которых приведено краткое название самого сходного белка B. subtilis.
Сравниваю взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме сенной палочки. Для этого рассматриваю для каждого предсказанного гена наиболее сходный из белков Bacillus subtilis. Участки, кодирующие необходимые белки, нахожу в записи с последовательностью генома сенной палочки (AL009126).
Перекрывания отсутствуют. Все соответствующие гены в геноме B. subtilis расположены на очень большом растоянии друг от друга (на несколько порядков больше, по сравнению с моим фрагментом), что видно из их координат - sigw: 194849-195412; sigm: 1029577-1030068; sppa: 3020040-3021047; yuai: 3179926-3180447. Плюс взаимное расположение генов B. subtilis не совпадает с предсказанным положеним гипотетических. Данную группу никак нельзя считать консервативной.
© Eugenia Prokhorova 2011