Поиск мотива одного сигнала с помощью программы или сервиса MEME и проверить его работу с помощью программы или сервиса FIMO

Для выполнения данного практикума я взяла ту же бактерию, что и в прошлай раз: Micrococcus luteus, ее геном тут.
Для поиска оперонов был применен интернет-ресурс Operon-mapper. На вход я подала fasta-файл с последовательностью генома, а также GFF файл, мне захотелось, чтобы программа наиболее точно предсказала нужные места. Она мне выдала таблицу.
Для того, чтобы составить материалы для обучения и тестирования, я применила скрипт, любезно предоставленный, Матвеем Киселевым. На вход она приняла геном бактерии и таблицу, которую мы получили ранее. Взамен я получила три файла:
learn.fa - 30 последовательностей промоторов генов тРНК на плюс-цепи генома бактерии. Это материал обучения. Гены тРНК я выбрал как гены домашнего хозяйства.
try.fa - 200 оперонов белок-кодирующих генов плюс-цепи того же генома. Это материал тестирования.
neg.fa - негативный контроль. 30 случайно сгенерированных последовательностей. Это негативный контроль.
Все последовательности в этих файлах длиной 100 нуклеотидов.
Далее я запустилал МЕМЕ на Коdomo с помощью команды:
meme /home/students/y22/mkd57/public_html/term4/learn.fa -dna -nmotifs 3 -minw 6 -text > meme.txt
После чего получила файл meme.txt, в котором таблицы, содержащие информацию о последовательностях входного файла и о мотивах, которые нашлись в них.
Программу мы просили найти 3 консенсусные последоватльености, что она и сделала:
1. TCTGGTABAGTYMYYHCHBGTT
2. KGTASGVTGGW
3. CGGAAVCGGAG
Затем была запущена программа FIMO с помощью команд:
fimo meme.txt /home/students/y22/mkd57/public_html/term4/try.fa
fimo meme.txt /home/students/y22/mkd57/public_html/term4/neg.fa
Результат работы для тестовой выборки здесь. А для отрицательного контроля тут.
Рассмотрим результаты для тестовой выборки: для первого мотива нашлась только одна последовательность, а для третьего целых 38. Для второго, увы, ничего. У всех находок p-value порядка е-05. Мотивы встречаются как на +, так и на - цепи.
В отрицательном контроле по хорошему не должно быть находок, но у меня для 1 и 3 мотивов есть по 2 штуки: оба встречаются на + и на - цепи, p-value снова порядка е-05.
Что ж, могу сказать, что результат неплохой, ведь для одного из мотивов мы смогли найти 38 последовательностей, что очень хорошо. Скорее всего второй мотив, который мы "нашли", используя МЕМЕ, не является мотивом. Мои знания молекулярной биологии не позволяют сделать вывод что это могло быть, что оно встретилось несколько раз.