Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии (кишечной палочки).
Ход работы:
Сперва я получил фрагмент генома Regiella insecticola из заданной записи EMBL AC192956 (нуклеотиды с 7001 по 14000) с помощью команды:
seqret -saskЗатем получил полный протеом бактерии Escherichia coli штамма K12 из Swiss-Prot с помощью команды:
seqret sw:*_ecoli
С помощью программы getorf я извлёк из моего фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов (-minsize 240). При этом использовал стандартный для бактерий генетический код (-table 11), открытой рамкой считал последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном (-find 1). Всего было найдено 20 рамок.
Следующей задачей было создание книги Excel, включающей информацию обо всех открытых рамках считывания в моём фрагменте генома. Для этого я делал следующее:
- с помощью программы grep без опций (поиск строки ">") и с перенаправлением вывода извлёк имена открытых рамок в моём фрагменте, начала и концы рамок, а также их направление;
- поместил эту информацию в книгу Excel, средствами Excel разбил её по столбцам и представил в наиболее удобном виде, также пришлось поменять местами начало и конец для рамок с обратным направлением;
- создал программой formatdb банк данных из протеома E. coli K12 (имя банка: ec);
- программой blastall с опцией -p blastp выполнил поиск гомологичных последовательностей по этому банку (-d ec), при условии E-value<0,001 (-e 0.001) с выводом в виде таблицы (-m 8);
- с помощью Excel создал столбец с командами программы grep для подсчёта количества строк (-c), содержащих имя каждой рамки в выходном файле программы blast с перенаправлением вывода в файл;
- чтоб для рамки AC192956_1 не находились также и рамки AC192956_10, AC192956_11 и т.д., необходимо было вставить знак "\>", означающий конец слова, после указания ячейки с именем рамки;
- скопировал эти команды в отдельный файл, сохранил в форматие Unix и программой chmod сделал из этого файла скрипт (+x);
- таким образом я получил количество находок для каждой последовательности и скопировал их в книгу Excel.
Потом нужно было привести таблицу, содержащую информацию только для тех открытых рамок, для которых нашлась хотя бы одна сходная последовательность. Таких рамок оказалось довольно много, поэтому я решил упростить эту задачу:
- с помощью автофильтра в Excel вывел на отображение те рамки, для которых количество находок больше 0;
- в меню {Файл} выбрал пункт "Предварительный просмотр веб-страницы", открыл HTML-код этой странички и скопировал из него таблицу на свою страничку;
- информацию о лучшей находке вводил обычным способом, предварительно выполнив поиск программой blastall без опции -m 8.
| Название рамки | Начало | Конец | Направление | Число находок BLAST | Лучшая находка | E-value лучшей находки |
| AC192956_1 | 14 | 346 | прямое | 1 | RL13_ECOLI | 4e-54 |
| AC192956_2 | 349 | 756 | прямое | 1 | RS9_ECOLI | 3e-64 |
| AC192956_4 | 1462 | 2136 | прямое | 1 | SSPA_ECOLI | 5e-74 |
| AC192956_5 | 2145 | 2645 | прямое | 1 | SSPB_ECOLI | 2e-36 |
| AC192956_9 | 5507 | 6223 | прямое | 25 | OMPR_ECOLI | e-113 |
| AC192956_10 | 6181 | 6891 | прямое | 1 | ENVZ_ECOLI | 1e-90 |
| AC192956_11 | 6714 | 6998 | прямое | 3 | ENVZ_ECOLI | 2e-23 |
| AC192956_14 | 4387 | 5109 | обратное | 1 | YHGF_ECOLI | 1e-90 |
| AC192956_15 | 3512 | 4444 | обратное | 1 | YHGF_ECOLI | e-126 |
| AC192956_16 | 2917 | 3552 | обратное | 3 | YHGF_ECOLI | 5e-89 |
Я получил запись с полным геномом бактерии E.coli c помощью команды:
entret embl:u00096 -autoВ этой записи я нашёл гены бактерии, гомологичные предпологаемым генам в моём фрагменте, и сохранил их положения в геноме. После чего я сделал схематичное изображение положения предпологаемых генов в моём фрагменте и гомологичных генов в E.coli. Так как конкретные положения генов в в E.coli нас не интересует, для удобства просмотра я вычел одно и то же число из всех позиций.