Поиск сигналов. Теория

Семестры • Четвертый семестр • Поиск сигналов. Теория

Поиск регуляторных мотивов транскрипции в бактериальных последовательностях

В первом задании мне необходимо было найти регуляторный мотив (набор сайтов) в полученных последовательностях с помощью программы MEME и сравнить с экспериментально подтвержденными. Результат выполнения задания представлен в файле Zlobin.docx. Всего мне было дано 14 последовательной, каждая длиной 100.

Программа MEME доступна по адресу http://meme-suite.org/. Она была запущена дважды, в режимах One per sequence и Zero or one per sequence. Каждый раз следующие параметры оставались неизменны: Minimum length = 16; Maximum length = 16; Maximum number of motifs to find = 1.

В итоговом файле экспериментально подтвержденные сайты выделены синим, сайты, полученные в режиме One per sequence - курсивом, Zero or one per sequence - полужирным. Серым были выделены последовательности, для которых не указано экспериментального сайта, сайты с низким p-value игнорировались. Все взятые на рассмотрение сайты помещены на серую подложку.

Во всех последовательностях, для которых был указан экспериментально подтвержденный сайт, сайты, определенные программом MEME совпали с экспериментальным полностью или со смещением на 1.

Описание сервиса

Для описания я взял сервис FindTerm. Он доступен по ссылке. Программа ищет Rho-независимые терминаторы бактерий.

На вход программа получает нуклеотидную последовательность и набор параметров:
1) Вывести ли все предполагаемые (не перекрывающиеся) терминаторы или лишь лучшую находку - чекер All putative terminators(one best signal by default)
2) Энергетический порог
Опции вывода:
3) Запустить ли Java viewer
4) Сгенерировать Postscript файл

Для демонстрации работы сервиса я рассмотрел приведенный пример со следующей нуклеотидной последовательностью:

aaaatttttttttccccccccaaaagggggggggaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaggggggggggggcccccccccccccctttttttttttttaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaagttttttttttttttttgggggggggggc
ccccccccccccctttaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaggggggggggggcccccccccccccctttttttttttttaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaggggggggggggcccccccccccccctttttttttttttaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaggggggggggggccccccc
ccccccctttttttttttttaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaggggggggggggcccccccccccccctttttttttttttaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaggggggggggggcccccccccccccctttttttttttttaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaggggggggggggccc
ccccccccccctttttttttttttaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaa

Видно, что пример явно является лишь примером, последовательность выглядит слишком искусственно. В примере заданы следующие параметры: выводить только лучший терминатор, просмотр в Java viewer и генерация Postscript выключены, порог -11.

Выдача программы. После объявления названия программы, версии, режима идет краткое описание найденного терминатора: цепь, начало, длина, рейтинг.
Затем на участке последовательности показано, какие нуклеотиды образуют связи, с помощью символов "(" и ")". В данном примере около 880 позиции у цитозина "(", затем четыре точки, а затем у гуанина ")" - перед нами головка шпильки.
Затем представлен этот участок последовательности в GCG формате.

При попытке запустить генерацию Postscript файла на примере программа выдала ошибку.