Практикум 7

В ходе выполнения практикума искал сигнал для сигма-субъединицы в 'предоперонных' областях бактерии Bacillus subtilis.
Для этого использовал программу MEME, которой на вход подал 'предоперонные' последовательности в fasta формате. С помощью сервиса Operon-mapper получил оперонную разметку генома, после чего отобрал 50 оперононов, связанныx с house-keeping генами, с помощью поиска по ключевым словам: 'topoisomerase', 'DNA', 'RNA', 'Ribosomal', 'replication', 'Adenin', далее взял 'предоперонные' области в 100bp перед ними, и отправил на вход meme.
Лучшей находкой стала последовательность AAAGGAGR (E-value = 4.6e-12), хотя и искал изначально 3 мотива с помощью команды:
meme train.fa -dna -minw 5 -maxw 50 -nmotifs 3 -text > meme_output.txt

Находка E-value
AAAGGAGR 4.6e-12
GKGCWKTTTTTWTTTTBKRWRA 2.8e-006
CTCGTYCYTTWWKSGG 4.5e-002

С помощью программы FIMO поискал этот мотив в последовательностях из test и neg_control выборок (50 последовательностей). Test отобрал случайно из всего множества предоперонных областей бактерии, для neg_control же брал случайные 100bp в геноме, не пересекающиеся с предоперонными областями.
В test_output лежало 38 находок (порог на p-value ~ 1e-3), при этом 5 находок обладали qvalue < 1e-4, у остальных же qvalue не проходило порог в 0.05
В neg_control_output было всего 2 находки с qvalue ~ 1. FIMO запускал локально с помощью команды:
fimo -thresh 1e-3 -norc meme_output.txt test.fa

Судя по E-value найденного мотива и выдачам FIMO на test и neg_control выборках, я думаю, результат получился интересный: трактовать 5 особенных находок, полученных с помощью test выборки, можно по-разному), но я осмелюсь предположить, что они обусловлены возможностью принадлежности некоторых test последовательностей к 'предоперонным' областям, связанным с house-keeping генами. Этим довольно просто можно объяснить столь резкий перепад qvalue в выдаче. Малое кол-во мотивов в neg_control выдаче и их максимальный qvalue показывает, что сделал я все правильно. XD


Supplementary materials

Ноутбук, написанный для получения последовательностей для train/test/neg_control выборок
Train выборка, поданная на вход MEME
Выдача MEME
Выдача FIMO на test выборке
Выдача FIMO на neg_control выборке