Практикум 9.

Подготовка данных

В ходе выполнения данного практикума мне нужно было набрать промоторные последовательности для поиска сайты связывания σ-субъединицы. Промотор я определил как область из 100 нуклеотидов перед опероном. Чтобы создать нужные мне выборки я взял fasta-последовательность хромосомы 1 граммотрицательной коккоидной бактерии Paracoccus denitrificans. С помощью Operon-mapper я получил файл с координатами оперонов (на вход подавал только последовательность хромосомы). Выборки были составлены с помощью скрипта Георгия Муравьева. Данный скрипт принимает на вход два файла: с хромосомой и со списком оперонов, и выдает: housekeeping.fasta (содержит промоторы от 216 генов домашнего хозяйства), promotors.fasta (промоторы для генов; 2859 шт) и negative.fasta (выборка из последовательностей длиной 100 для отрицательного контроля; 216 шт).

MEME

Я запустил MEME, изменив параметр zoops на oops, так как предполагал, что сигнал должен быть во всех последовательностях. На выходе получил три возможных сигнала длиной 6 с высокими e-value, что ожидаемое из-за их длины (выдача MEME). Предположив, что мотив мог не встретится в какой-то последовательности, я изменил параметр oops на zoops (выдача MEME). В данном случае программа нашла более длинные мотивы с меньшим значением e-value, но всречались они только в 16-22 последовательностях.

Рис. 1. Первый мотив (e-value = 1.9 * 10^0.46) в первой выдаче MEME (oops).
Рис. 3. Третий мотив (e-value = 2.2 * 10^0.99) в первой выдаче MEME (oops).
Рис. 2. Второй мотив (e-value = 1.2 * 10^0.78) в первой выдаче MEME (oops).
Рис. 4. Первый мотив (e-value = 8.4 * 10^-0.02) во второй выдаче MEME (zoops).
Рис. 5. Второй мотив (e-value = 1.6) во второй выдаче MEME (zoops).
Рис. 6. Третий мотив (e-value = 7.4 * 10^0.01) во второй выдаче MEME (zoops).

FIMO

Для поиска по мотиву я выбрал последовательности CTTTCS и TTCTTCTTSSC (взял две, так как одна очень короткая, а другая встречалась только в 22 образцах обучающей выборки).

CTTTCS

Команды для поиска в тестовой выборке и отрицательном контроле соответственно:

fimo -thresh 0.001 --text --norc --motif CTTTCS meme1.txt ../promotors.fasta > fimo_meme1_prom.tsv

fimo -thresh 0.001 --text --norc --motif CTTTCS meme1.txt ../negative.fasta > fimo_meme1_neg.tsv

В результате я получил файлы выдачи: fimo_meme1_prom.tsv (для промоторов), fimo_meme1_neg.tsv (для отрицательного контроля).

TTCTTCTTSSC

Команды для поиска в тестовой выборке и отрицательном контроле соответственно:

fimo -thresh 0.001 --text --norc --motif TTCTTCTTSSC meme2.txt ../promotors.fasta > fimo_meme2_prom.tsv

fimo -thresh 0.001 --text --norc --motif TTCTTCTTSSC meme2.txt ../negative.fasta > fimo_meme2_neg.tsv

В результате я получил файлы выдачи: fimo_meme2_prom.tsv (для промоторов), fimo_meme2_neg.tsv (для отрицательного контроля).

Выводы по FIMO

Так как в обоих случаях в отрицательном контроле было найдено малое количество совпаданий при довольном низком p-value, а в тестовой выборке в обоих случаях много находок, то можно считать, что мотивы являются достоверными (хотя вариант из первой выдачи MEME мне нравится больше, так как он встречается во всех последовательностях обучающей выборки в отличие от второго, который есть только в 22 последовательностях обучающей выборки).