Практикум 8

Обзор:

В ходе данного практикума исследовалась последовательность Шайна — Дальгарно.

Описание последовательности Шайна — Дальгарно

Название сигнала: Последовательность Шайна — Дальгарно (Shine-Dalgarno sequence, SD-sequence).
Носитель сигнала: Матричная РНК (мРНК) у бактерий и архей.
Кому адресован: Малой субъединице рибосомы (30S).
Предназначение: Служит сайтом посадки рибосомы на мРНК. Специфическое комплементарное взаимодействие между последовательностью Шайна — Дальгарно на мРНК и анти-Shine-Dalgarno последовательностью на 3'-конце 16S рРНК, входящей в состав малой субъединицы рибосомы, обеспечивает правильное позиционирование старт-кодона (AUG) в P-сайте рибосомы. Это необходимо для инициации трансляции.
Предназначение: Сила сигнала определяется степенью комплементарности с последовательностью на рРНК и расстоянием до старт-кодона. Чем выше комплементарность (например, идеальное соответствие 5'-AGGAGG-3') и оптимальное расстояние (около 5-9 нуклеотидов), тем выше эффективность инициации трансляции и, следовательно, уровень синтеза белка. Более слабые последовательности с заменами будут хуже привлекать рибосомы. Также сила сигнала может зависить от вторичной структуры мРНК, создающей пространственные затруднения для рибосомы (скрытие сигнальной последовательности).
Примеры сигнала: Каноническая последовательность 5'-AGGAGG-3'; SD-последовательность из Bacillus subtilis: AGGAGG, сигнал сильный
Литература:
1. Shine, J., & Dalgarno, L. (1974). The 3'-terminal sequence of Escherichia coli 16S ribosomal RNA: complementarity to nonsense triplets and ribosome binding sites. Proceedings of the National Academy of Sciences, *71*(4), 1342–1346. https://doi.org/10.1073/pnas.71.4.1342
2. Vimberg, V., Tats, A., Remm, M., & Tenson, T. (2007). Translation initiation region sequence preferences in Escherichia coli. BMC Molecular Biology, *8*, 100. https://doi.org/10.1186/1471-2199-8-100

Сервис для поиска выбранного сигнала

Специализированных бесплатных сервисов, предназначенных исключительно для поиска последовательности Шайна-Дальгарно, я не нашел. В источниках всплывал некий RBSfinder, однако самой программы я не нашёл (только какая-то старая версия для установки на одном форуме). Однако для решения этой задачи можно применить универсальный инструмент для поиска известных (существует ещё MEME для поиска неизвестных мотивов - название прекрасное) мотивов FIMO (Find Individual Motif Occurrences).
FIMO — это мощный биоинформатический инструмент, входящий в состав MEME Suite, предназначенный для поиска отдельных вхождений заданных мотивов (например, последовательности Шайна-Дальгарно) в нуклеотидных или белковых последовательностях.
Он работает путем сканирования последовательности с использованием позиционных весовых матриц (PSSM), которые оценивают вероятность появления нуклеотида в каждой позиции мотива. Для каждого найденного совпадения FIMO вычисляет p-value, что позволяет оценить статистическую значимость результата и отфильтровать случайные совпадения. Таким образом, он находит даже слабые, но статистически значимые участки связывания. Можно вручную устанавливать порог p-value при запуске.
FIMO

Рис. 1. Диалоговое окно для использования FIMO


Полноценная проверка данного инструмента была проведена мной в ходе практикума 9. Приведу здесь отрывок оттуда с дополнительными комментариями:
Был проведен поиск предварительно обнаруженного в промоторных областях бактерии Aquibium oceanicum с помощью MEME сигнала на тестовой и контрольной выборке программой FIMO (справку посмотрел тут):

fimo --o fimo_out_test --motif ADGGAGRA --thresh 0.001 meme_out/meme.txt test_promoters.fasta
fimo --o fimo_out_control --motif ADGGAGRA --thresh 0.001 meme_out/meme.txt negative_control.fasta

Сам сигнал можно посмотреть на Рис. 2. Вот отчет программы для тестовой выборки, а вот отчет программы для контрольной.
Итого: В тестовой выборке сигнал был обнаружен в 122 последовательностях из 600 (20%), а в контрольной в 44 из 600 (4%).
Применив точный тест Фишера (скрипт на R), получаем, что различие в представленности данного сигнала в промоторных областях и межгенных областях Aquibium oceanicum статистически значимо
(p-value < 0.001; OR = 3.22 95% CI [2.21, 4.76])
Итак, обнаруженный сигнал похож на последовательность Шайна-Дальгарно E.coli по своей последовательности (звучит прекрасно), а также статистически значимо встречается чаще в промоторных областях чем в межгенных промежутках. Так что можно предположить, что это действительно последовательность Шайна-Дальгарно Aquibium oceanicum.

Рис. 2. Результаты поиска сигналов программой MEME: сигнал, который я искал с помощью FIMO в выборках из промоторных областей и межгенных промежутков.