Учебный сайт Алены Корягиной

Поиск последовательностей Шайна-Дальгарно в геноме бактерии Thermoanaerobacter pseudethanolicus

Последовательность Шайна-Дальгарно (последовательность Ш.-Д.) — участок на прокариотической мРНК, расположенный перед инициирующим кодоном, который необходим для связывания рибосомы и проведения правильной трансляции. Эта последовательность содержит нуклеотидную последовательность, комплементарную 3'-концу 16S рибосомной РНК, в результате чего образуется двуспиральный комплекс в процессе инициации трансляции.

Для поиска последовательностей Ш.-Д. в геноме бактерии Thermoanaerobacter pseudethanolicus (штамм ATCC 33223) с FTP-сервера NCBI был скачан файл с полным геномом этой бактерии и хромосомная таблица, содержащая информацию о координатах кодирующих областей в геноме. На основе данных, представленных в хромосомной таблице, были определены координаты участков, которые могут содержать последовательностит Ш.-Д. Известно, что последовательность Ш.-Д. короткая и составлят 6-7 нуклеотидов, а также может находиться примерно за 3-10 нуклеотидов до начала кодирующей области. Поэтому область возможного нахождения последовательности Ш.-Д. была задана координатами [-20;-3] от начала каждого гена. Такое задание координат не гарантирует поиска всех возможных последовательностей с мотивом Ш.-Д., но предотвращает нахождение случайных совпадений. С помощью скрипта были найдены и записаны в файл координаты 2 358 подходящих участков. Далее с помощью программы seqret (команда: seqret @coords.txt seqs.fasta) был получен файл, содержащий искомые последовательности. Имена последовательностей были переименованы с помощью скрипта (конечный файл).

Следующим этапом было использование онлайн версии программы МЕМЕ для нахождения последовательности Ш.-Д. в первой сотне последовательностей. Как уже говорилось, последовательность Ш.-Д. короткая, например, для E.coli она представлеет консенсус из 7 нуклеотидов, а именно AGGAGGU, а для большинства остальных прокариот 6 букв: AGGAGG. Поэтому программа МЕМЕ была запущена со следующими параметрами: минимальная длинна консенсуса 6, максимальная – 7. Все остальные параметры оставлены по умолчанию. В результате было найдено три различных мотива, один из которых и является последовательностью Ш.-Д. Он представлен в 94 последовательностях, его Evalue составляет 1.3e-075, а консенсус состоит из 6 нуклеотидов: AGGAGG. Лого полученного мотива представлено на рисунке 1. Файл выдачи программы МЕМЕ вы можете посмотреть здесь.

Рис.1. Лого найденного мотива.

Далее для на основе найденного консенсуса файл со всеми возможными областями нахождения последовательности Ш.-Д. был отправлен в программу МАST. Файл выдачи программы МAST вы можете посмотреть здесь. Было найдено 192 последовательности, содержащих достоверные совпадения с найденным мотивом (Evalue<=10). Номера этих последовательностей сохранены в файл, и с использованием этих номеров последовательности сохранены в отдельный файл (скрипт).

Из полученных последовательностей было построено выравнивание (выравнивание в формате .fasta). При анализе полученного выравнивания было замечено, что мотив Ш.-Д. в исследуемом геноме может находиться с -20 по -4 координаты относительно гена. Но, как уже говорилось, первая граница может быть дальше -20 координаты и, возможно, что в данном геноме есть еще гены, область перед которыми содержит мотив Ш.-Д.

© Alyona Koryagina aakor@fbb.msu.ru

Дата последнего изменения: 18.08.15