Семестры • Четвертый семестр • Поиск сигналов. Теория
В первом задании мне необходимо было найти регуляторный мотив (набор сайтов) в полученных последовательностях с помощью программы MEME и сравнить с экспериментально подтвержденными. Результат выполнения задания представлен в файле Zlobin.docx. Всего мне было дано 14 последовательной, каждая длиной 100.
Программа MEME доступна по адресу http://meme-suite.org/. Она была запущена дважды, в режимах One per sequence и Zero or one per sequence. Каждый раз следующие параметры оставались неизменны: Minimum length = 16; Maximum length = 16; Maximum number of motifs to find = 1.
В итоговом файле экспериментально подтвержденные сайты выделены синим, сайты, полученные в режиме One per sequence - курсивом, Zero or one per sequence - полужирным. Серым были выделены последовательности, для которых не указано экспериментального сайта, сайты с низким p-value игнорировались. Все взятые на рассмотрение сайты помещены на серую подложку.
Во всех последовательностях, для которых был указан экспериментально подтвержденный сайт, сайты, определенные программом MEME совпали с экспериментальным полностью или со смещением на 1.
Для описания я взял сервис FindTerm. Он доступен по ссылке. Программа ищет Rho-независимые терминаторы бактерий.
На вход программа получает нуклеотидную последовательность и набор параметров:
1) Вывести ли все предполагаемые (не перекрывающиеся) терминаторы или лишь лучшую находку - чекер All putative terminators(one best signal by default)
2) Энергетический порог
Опции вывода:
3) Запустить ли Java viewer
4) Сгенерировать Postscript файл
Для демонстрации работы сервиса я рассмотрел приведенный пример со следующей нуклеотидной последовательностью:
aaaatttttttttccccccccaaaagggggggggaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaggggggggggggcccccccccccccctttttttttttttaaaaaaaaaaaaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaagttttttttttttttttgggggggggggc ccccccccccccctttaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa aaaaaggggggggggggcccccccccccccctttttttttttttaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaggggggggggggcccccccccccccctttttttttttttaaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaggggggggggggccccccc ccccccctttttttttttttaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa aaaaaaaaaggggggggggggcccccccccccccctttttttttttttaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaggggggggggggcccccccccccccctttttttttttttaaaa aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaggggggggggggccc ccccccccccctttttttttttttaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa aaaaaaaaa
Видно, что пример явно является лишь примером, последовательность выглядит слишком искусственно. В примере заданы следующие параметры: выводить только лучший терминатор, просмотр в Java viewer и генерация Postscript выключены, порог -11.
Выдача программы. После объявления названия программы, версии, режима идет краткое описание найденного терминатора: цепь, начало, длина, рейтинг.Затем на участке последовательности показано, какие нуклеотиды образуют связи, с помощью символов "(" и ")". В данном примере около 880 позиции у цитозина "(", затем четыре точки, а затем у гуанина ")" - перед нами головка шпильки.Затем представлен этот участок последовательности в GCG формате.
При попытке запустить генерацию Postscript файла на примере программа выдала ошибку.