Практикум 7.

Последовательность Шайна-Дальгарно.

На небольшом расстоянии от стартового кодона у бактерий находится последовательность, узнаваемая 3'-концом 16S РНК, что вызывает начало трансляции. Задачи: отобрать из генома бактерии достоверные(длиннее 100 а.о.) последовательности генов, включая 20 нуклеотидов до начала трансляции; найти среди их части и 3'-конца 16S РНК с помощью программы MEME последовательности SD и ASD(точнее из найденных мотивов выбрать именно их); на оставшихся генах с помощью программы FIMO протестировать работу построенной PWM

Отбор входных последовательностей.

Для выполнения задания был выбран геном штамма DP3 бетапротеобактерии Alicyclifilus denitrificans, обзор на который выполнялся в первом семестре. Из сопроводительных материалов к обзору был взят лист таблицы с генами хромосомы, полученный из feature_table NCBI. Из него средствами Microsoft Excel были отобраны гены, кодирующие белки не короче 100 а.о., и скопированы в два tsv-файла: координаты белок кодирующих генов, координаты генов 16S РНК. С помощью Python был получен fasta-файл, содержащий последовательности кодирующих цепей 100 генов с двадцатинуклеотидиными upstrem'ами, а так же файл, содержащий матричные цепи генов 16S РНК. Вручную они были объединены в seq.fasta и поданы на вход программе MEME.

MEME.

Параметры: 1 или 0 вхождений мотива в последовательность, искать 3 мотива, размер мотива 6-10 п.н., поиск только по данной цепи, остальные - без изменений. Результат можно увидеть на рис. 1.

Рис. 1. Результат первого запуска MEME. Не очень похоже на SD.

Был составлен файл только из upstream'ов генов белков и 3'-концов 16S РНК, и был произведен новый поиск с теми же параметрами. Один из мотивов найден в 44 последовательностях и похож на SD - VRAGGAGACC (pwm).

Рис. 2. Результат второго запуска MEME. Больше похоже на SD.

44 из 103 вхождений мотива мне показалось слишком мало(хотя это почти половина), так что я проделал все еще раз, но взял 1000 генов с сорокануклеотидными upstrem'ами. Для полных последовательностей найденные мотивы не были похожи на SD, а для upstream'ов был получен похожий сигнал с 241 вхождением. Он расположен ближе к ATG(3'-концу фрагментов). pwm сигнала MAGGAGAMM.

Рис. 3. LOGO последовательности SD при третьем запуске

FIMO

На вход FIMO подавался результат полученный при последнем запуске MEME. Поиск проходил по оставшимся ~2500 генов, собранных в fasta-файл. p-value<1E-4, поиск только на данной цепи. Было найдено 511 сигналов, причем лучшие находки(с q-value 0.242) находятся перед старт-кодоном. Таким образом, можно считать что мотив был найден верно.

Рис. 4. Фрагмент выдачи Fimo.