Последовательность Шайн-Дальгарно в геноме ALTEROMONAS AUSTRALICA (H17)

В качестве задачи для данного практикума я выбрал поиск мотива сайта посадки рибосом - последовательности Шайна-Дальгарно. На данный момент этот сигнал хорошо изучен. Он начинается примерно на 10 нуклеотидов до стартого кодона и имеет консенсус - AGGAGG. Комплеиентарная этому участку последовательность располагается на 3'-конце молекулы 16S рибосомальной РНК для точного связывания рибосомы с матричной РНК.

Были скачаны полный геном и таблица особенностей. С помощью предложенного скрипта были получены, а затем вручную отфильтрованы описания всех CDS. Убрал все hypothetical protein, и оставил гены только с + цепи. С помощью следующего скрипта были получены 100 полных последовательностей генов вместе с примыкающими к ним 30 нуклеотидами сверху, а также 200 непосредственно upstream участков длины 30 (seqs.fasta).

90 последовательностей (включая последовательность рРНК) было перенесено в файл train.fasta. Остальные - в test.fasta. Первый файл был направлен на вход программе MEME, чтобы найти мотив в исходных последовательностях. Результаты выдачи:

Выдача MEME показала три возможных сигнала, 2 из которых нашлись соответственно только в 2 и 4 последовательностях, что вряд ли является искомым сигналом (не удовлетворяет также нашим знаниям о консенсусе). Первый сигнал, AGGARW, (pssm) имелся в 74 последовательностях и довольно похож на консенсус.

1

Для FIMO были взяты оставшиеся 210 последовательностей. Запускал с порогом на p-value равным 0.1. В итоге получил 126 последовательностей, в которых встретился сигнал, сильно напоминающий последовательность Шайна-Дальгарно (в некоторых последовательностях встретился консенсус). Фрагмент выдачи программы.