В ходе выполнения данного практикума мне нужно было набрать промоторные последовательности для поиска сайты связывания σ-субъединицы. Промотор я определил как область из 100 нуклеотидов перед опероном. Чтобы создать нужные мне выборки я взял fasta-последовательность хромосомы 1 граммотрицательной коккоидной бактерии Paracoccus denitrificans. С помощью Operon-mapper я получил файл с координатами оперонов (на вход подавал только последовательность хромосомы). Выборки были составлены с помощью скрипта Георгия Муравьева. Данный скрипт принимает на вход два файла: с хромосомой и со списком оперонов, и выдает: housekeeping.fasta (содержит промоторы от 216 генов домашнего хозяйства), promotors.fasta (промоторы для генов; 2859 шт) и negative.fasta (выборка из последовательностей длиной 100 для отрицательного контроля; 216 шт).
Я запустил MEME, изменив параметр zoops на oops, так как предполагал, что сигнал должен быть во всех последовательностях. На выходе получил три возможных сигнала длиной 6 с высокими e-value, что ожидаемое из-за их длины (выдача MEME). Предположив, что мотив мог не встретится в какой-то последовательности, я изменил параметр oops на zoops (выдача MEME). В данном случае программа нашла более длинные мотивы с меньшим значением e-value, но всречались они только в 16-22 последовательностях.
Для поиска по мотиву я выбрал последовательности CTTTCS и TTCTTCTTSSC (взял две, так как одна очень короткая, а другая встречалась только в 22 образцах обучающей выборки).
Команды для поиска в тестовой выборке и отрицательном контроле соответственно:
fimo -thresh 0.001 --text --norc --motif CTTTCS meme1.txt ../promotors.fasta > fimo_meme1_prom.tsv
fimo -thresh 0.001 --text --norc --motif CTTTCS meme1.txt ../negative.fasta > fimo_meme1_neg.tsv
В результате я получил файлы выдачи: fimo_meme1_prom.tsv (для промоторов), fimo_meme1_neg.tsv (для отрицательного контроля).
Команды для поиска в тестовой выборке и отрицательном контроле соответственно:
fimo -thresh 0.001 --text --norc --motif TTCTTCTTSSC meme2.txt ../promotors.fasta > fimo_meme2_prom.tsv
fimo -thresh 0.001 --text --norc --motif TTCTTCTTSSC meme2.txt ../negative.fasta > fimo_meme2_neg.tsv
В результате я получил файлы выдачи: fimo_meme2_prom.tsv (для промоторов), fimo_meme2_neg.tsv (для отрицательного контроля).
Так как в обоих случаях в отрицательном контроле было найдено малое количество совпаданий при довольном низком p-value, а в тестовой выборке в обоих случаях много находок, то можно считать, что мотивы являются достоверными (хотя вариант из первой выдачи MEME мне нравится больше, так как он встречается во всех последовательностях обучающей выборки в отличие от второго, который есть только в 22 последовательностях обучающей выборки).