Учебный сайт
Владимира Ноздрина

Сигналы и мотивы 2

 В этом задании я ищу сигналы Шайн-Дальгарно в геноме Cronobacter dublinensis по выдаче MEME из предыдущего практикума. При выполнении этого задания я в основном пользовался средствами Python и исходный код всего, что я делал, можно посмотреть в jupyter notebook, скачав файл по ссылке. Я вообще ничего не нашёл про SD-последовательность этой бактерии. Ни у неё, ни у других бактерий этого рода. Также я искал что-то про Enterobacter sakazakii (раньше эта бактерия называлась так), но тоже ничего не нашёл.
 Сначала я получил последовательности, по которым я искал этот сигнал. Оказалось, что вообще все белки этой бактерии предсказаны из гомологии, поэтому я отбирал гены только по следующим критериям: длина больше 300 п.н. и не 'hypothetical protein' (на самом деле была ещё парочка CDS с одинаковыи protein_id, для них я брал только первое вхождение в features). Подходящих последовательностей набралось 3380. Я взял CDS целиком и добавил ещё 30 нуклеотидов перед ними. Полученный файл с последовательностями я загрузил в FIMO сначала на стандартных настройках, а в качестве мотива я использовал выдачу MEME из предыдущего задания (ссылка). При пороге p-value в e-4 нашлось чуть больше 700 сигналов, а "нормальных" (объясню чуть позже) оказалось всего 170. Поэтому я поднял p-value до 0.001. Так нашлось 6942 сигнала. Не шумовые отбирались просто: они должны заканчиваться до стартового кодона и на + цепи (Во всех последовательностях стартовый кодон находится в позиции 30). Итого, нормальных сигналов нашлось 727. Это составляет 21.5% от числа всех поданных на вход FIMO последовательностей. Список всех их в формате Excel можно скачать по ссылке.
 Лого найденных сигналов, построенное с помощью сервиса WebLogo можно увидеть на Рис. 1, а на Рис. 2 представлена гистограмма расстояний между концом мотива до начала трансляции.

Рисунок 1. Лого найденных последовательностей.
Рисунок 1. Гистограмма расстояний до старта трансляции.
 Итак, как и ожидалось, лого найденных сигналов точно такой же, как и лого из предыдущего практикума. Что касается расстояний, то больше всего сигналов находятся на расстоянии 2 нуклеотидов до старт-кодона, и нет вообще ни одного, находящегося дальше 20. Видно, что сигнал действительно слабый: в геноме очень много похожих последовательностей, но не являющихся сайтом посадки рибосомы, а также много сайтов посадки рибосомы не нашлось, хотя они там есть.