Поиск мотива сайта посадки рибосомы - последовательности Shine-Dalgarno

Для данного практикума я выбрала задание по поиску мотива последовательности Шайна — Дальгарно в геноме ранее изучаемой мною бактерии Pseudoalteromonas phenolica. Данная последовательность иммет консенсус AGGAGG и находится обычно примерно на расстоянии 10bp до старт-кодона. Она является сайтом посадки рибосомы, соответственно комплементарная ей последовательность находится на 3'-конце 16S рРНК.

Мною были скачаны файлы с полной последовательностью I хромосомы и таблица особенностей. Далее были отобраны CDS с прямой цепи, длина которых превышает 300bp и продуктами которых не являются hypothetical proteins.

Затем мною были получены 300 последовательностей апстрим участков генов (по 20 нуклеотидов), которые я разделила на 2 части для дальнейшей подачи на вход MEME (первые 200) и FIMO (остальные). В первый файл вручную я также добавила комплементарную последовательность 3'-концевого участка 16S РНК.

MEME

Файл с 200+1 последовательностями был подан на вход MEME для нахождения мотива.

Выдача программы доступна по ссылке. В результате из трёх возможных сигналов только один был найден в значительном числе последовательностей (169 из 201), в том числе в 16S РНК, а также имел низкое значение E-value (8.7e-045). Полученный мотив имеет следующий паттерн: AGGARWA, что очень напоминает консенсус для SD: AGGAGG.

Матрица

In [117]:
#logo найденного мотива
Image('./mememe.png')
Out[117]:

FIMO

Оставшиеся 100 последовательностей были поданы на вход FIMO для проверки PWM. Порог по p-value был выставлен 0.01. Выдача доступна по ссылке. В итоге получилось 60 последовательностей, где встретился полученный ранее сигнал.