Зачетное задание по BLAST

Дано: неаннотированный фрагмент генома бактерии Regiella insecticola

Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии (кишечной палочки).

Ход работы:

Сперва я получил фрагмент генома Regiella insecticola из заданной записи EMBL AC192956 (нуклеотиды с 7001 по 14000) с помощью команды:

seqret -sask
Затем получил полный протеом бактерии Escherichia coli штамма K12 из Swiss-Prot с помощью команды:
seqret sw:*_ecoli

С помощью программы getorf я извлёк из моего фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов (-minsize 240). При этом использовал стандартный для бактерий генетический код (-table 11), открытой рамкой считал последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном (-find 1). Всего было найдено 20 рамок.


Следующей задачей было создание книги Excel, включающей информацию обо всех открытых рамках считывания в моём фрагменте генома. Для этого я делал следующее:
  • с помощью программы grep без опций (поиск строки ">") и с перенаправлением вывода извлёк имена открытых рамок в моём фрагменте, начала и концы рамок, а также их направление;
  • поместил эту информацию в книгу Excel, средствами Excel разбил её по столбцам и представил в наиболее удобном виде, также пришлось поменять местами начало и конец для рамок с обратным направлением;
  • создал программой formatdb банк данных из протеома E. coli K12 (имя банка: ec);
  • программой blastall с опцией -p blastp выполнил поиск гомологичных последовательностей по этому банку (-d ec), при условии E-value<0,001 (-e 0.001) с выводом в виде таблицы (-m 8);
  • с помощью Excel создал столбец с командами программы grep для подсчёта количества строк (-c), содержащих имя каждой рамки в выходном файле программы blast с перенаправлением вывода в файл;
  • чтоб для рамки AC192956_1 не находились также и рамки AC192956_10, AC192956_11 и т.д., необходимо было вставить знак "\>", означающий конец слова, после указания ячейки с именем рамки;
  • скопировал эти команды в отдельный файл, сохранил в форматие Unix и программой chmod сделал из этого файла скрипт (+x);
  • таким образом я получил количество находок для каждой последовательности и скопировал их в книгу Excel.


Потом нужно было привести таблицу, содержащую информацию только для тех открытых рамок, для которых нашлась хотя бы одна сходная последовательность. Таких рамок оказалось довольно много, поэтому я решил упростить эту задачу:
  • с помощью автофильтра в Excel вывел на отображение те рамки, для которых количество находок больше 0;
  • в меню {Файл} выбрал пункт "Предварительный просмотр веб-страницы", открыл HTML-код этой странички и скопировал из него таблицу на свою страничку;
  • информацию о лучшей находке вводил обычным способом, предварительно выполнив поиск программой blastall без опции -m 8.
Название рамки Начало Конец Направление Число находок BLAST Лучшая находка E-value лучшей находки
AC192956_1 14 346 прямое 1 RL13_ECOLI 4e-54
AC192956_2 349 756 прямое 1 RS9_ECOLI 3e-64
AC192956_4 1462 2136 прямое 1 SSPA_ECOLI 5e-74
AC192956_5 2145 2645 прямое 1 SSPB_ECOLI 2e-36
AC192956_9 5507 6223 прямое 25 OMPR_ECOLI e-113
AC192956_10 6181 6891 прямое 1 ENVZ_ECOLI 1e-90
AC192956_11 6714 6998 прямое 3 ENVZ_ECOLI 2e-23
AC192956_14 4387 5109 обратное 1 YHGF_ECOLI 1e-90
AC192956_15 3512 4444 обратное 1 YHGF_ECOLI e-126
AC192956_16 2917 3552 обратное 3 YHGF_ECOLI 5e-89


Я получил запись с полным геномом бактерии E.coli c помощью команды:
entret embl:u00096 -auto
В этой записи я нашёл гены бактерии, гомологичные предпологаемым генам в моём фрагменте, и сохранил их положения в геноме. После чего я сделал схематичное изображение положения предпологаемых генов в моём фрагменте и гомологичных генов в E.coli. Так как конкретные положения генов в в E.coli нас не интересует, для удобства просмотра я вычел одно и то же число из всех позиций.
Regiella insecticola
|3'----------------------------------------------------------------------------------------5'|
|                                                                                            |
|5'--[=> RL13, 14-346]--[=> RS9, 349-756]----[=> SSPA, 1462-2136]---[=> SSPB, 2145-2645]---3'|


|3'--[<= YHGF, 2917-3552, 3512-4444, 4387-5109]--------------------------------------------5'|
|                                                                                            |
|5'---------------------------------------------[=> OMPR, 5507-6223]-----------------------3'|
|                                                       --[=> ENVZ, 6181-6891, 6714-6998]--  |


Escherichia coli
|3'--[<= SSPB, 1-498]--[<= SSPA, 504-1142]----[<= RS9, 1537-1929]---[<= RL13, 1945-2373]---5'|
|                                                                                            |
|5'----------------------------------------------------------------------------------------3'|


|            --[<= ENVZ, 158238-159590]--                                                    |
|3'---------------------------------[<= OMPR, 159587-160306]-------------------------------5'|
|                                                                                            |
|5'-------------------------------------------------------------[=> YHGF, 161107-164428]---3'|
По этим схемам очевидно, что имеются две группы генов:
  • SSPB, SSPA, RS9, RL13
  • ENVZ, OMPR, YHGF
Внутри каждой группы гены распологаются на одних и тех же цепях ДНК относительно друг друга и в одном порядке. В обоих геномах даже имеются перекрывания генов OMPR и ENVZ, хотя и различной длины. Кроме того, сохраняется относительное расположение на цепях этих двух групп. Таким образом, можно утверждать высокий уровень консервативности расположения генов внутри каждой группы.

Мы видим перекрывание генов OMPR и ENVZ. Думаю, в этом нет проблемы для организма. Каждая рамка может использоваться независимо.

Остаётся непонятной одна загадка. Для нескольких перекрывающихся рамок был найден один и тот же гомологичный ген. Имеется даже 2 таких случая: для генов YHGF и ENVZ. У меня есть лишь одно предположение, позволяющее это объяснить. Возможно, рамки транскрибируются в различные мРНК отдельно друг от друга, после чего происходит "склеивание" этих мРНК.



© Айдарханов Руслан 2008