A picture of DNA should be here

Предсказание генов у прокариот

В данном практикуме было необходимо проаннотировать фрагмент (контиг) бактериального микробиома сумчатого животного - Болотного валлаби (Wallabia bicolor).

Для начала я воспользовалась программой getorf пакета EMBOSS со следующими параметрами: бактериальный генетический код, рамка считывания не менее 180 нуклеотидов, трансляция между старт и стоп кодонами (-find 1) .

getorf -sequence contig.fasta -outseq Wallabi_bicolor.orf -table 11 -minsize 180 -find 1

Нашлось 14 рамок считывания. Их вы можете посмтореть здесь.

Далее я запустила blastp на сервере NCBI . Выбрала базу данных UniProtKB/Swiss-Prot в параметрах поиска, а также выбрала в поле Organism: bacteria (taxid: 2). Последнее показалось мне оправданным, так как исходно исследуется микробиом желудка Wallabi.

Результат, выданный программой, показался мне очень странным. Ни одна из находок не имела даже близкого к хорошему evalue, ни нужного покрытия, хотя была найдена последовательность генома как раз симбиотической бактерии кишечника. Предполагаю, что это связано с тем, что я пыталась проаннотировать гены, подав на вход сразу все рамки считывания.

Рис. 1 Результат первого запуска blast. Непонятные значения.

После этого, я запустила BLAST для каждой найденной рамки в отдельности. Значительные соответствия были найденны в 5, 7, 13 и 14 рамках считывания. Информацию о полученных результатах (координатах найденных рамок считывания, возможных генов, закодированных вв последовательности) вы можете найти в таблице 1.

Таблица 1. Результат поиска ORF и работы blastp
Начало
Конец
Длина в а.о.
Цепь
Описание
2279 2572 98 + Чувствительный к меди ререссор транскрипции. Стоит отметить, что найденные соответствия принадлежат к суперсемейству CsoR-like_DUF156, что было подчеркнуто в результатах blastp. Это суперсемейство включает в себя транскрипционные регулятороы, которые реагируют на стресс-включая Cu (I), Ni (I), сульфит, и формальдегида. Содержатся как раз в симбиотитических кишечных бактериях.
2588 2914 109 + Cu зависимая АТФаза типа P. Стоит отметить, что найденные белки принаджлежат к HMA cуперсемейтву. Белки этого семейства содержат консервативный домен, ответственный за транспортировку и детоксикацию тяжелых металлов. Находки были обнаружены в золотистом стафилококке, Bacilis Subtilis, Helicobacter Pylori.
1625 846 260 - Найденные соответсвия принадлежат к суперсемейству prsW протеаз. Это распространенное семейство мембранных белков, которые вызывают стресс клеточной оболочки, при контакте с чужеродными пептидами.
47 826 260 - Были найдены белки суперсемейства дегалогеназ (HAD_like superfamily).

Далее мной была запущена программа GeneMark (эвристический алгоритм 1999), которая тоже используется для предсказания генов в контиге. На вход программе был подан исходный контиг , который использовался ранее для предсказания рамок считывания. График кодирующего потенциала в формате pdf вы можете найти здесь Фрагмент графика из файла вы можете найти на рисунке 2.

Рис. 2. Фрагмент отчета работы программы GeneMark.

Также из одного из выходных файлов можно узнать точные координаты предсказанных генов.

Таблица 2. Результат работы GeneMark
Номер предсказания Цепь Левый конец Правый конец Длина гена
1 - 44 802 759
2 - 843 1583 741
3 + 1724 2200 477
4 + 2279 2575 297
5 + 2594 2914 321

Как видно из полученных данных, предсказанные GeneMark и getorf довольно хорошо соответствуют. Различие состоит только в небольшом сдвиге координат предполагаемых генов и наличия в результатах работы GeneMark предполагаемого гена (номер 3), не обнаружевшего соответствий при работе blastp.