сигналы и мотивы 2

Последовательность Шайна-Дальгарно. На небольшом расстоянии от стартового кодона у бактерий находится последовательность, узнаваемая 3'-концом 16S РНК, что вызывает начало трансляции. Задачи: отобрать из генома бактерии достоверные(длиннее 100 а.о.) последовательности генов, включая 20 нуклеотидов до начала трансляции; найти среди их части и 3'-конца 16S РНК с помощью программы MEME последовательности SD и ASD(точнее из найденных мотивов выбрать именно их); на оставшихся генах с помощью программы FIMO протестировать работу построенной PWM Отбор входных последовательностей. Для выполнения задания был выбран геном штамма бактерии Streptomyces subrutilus, обзор на который выполнялся в первом семестре. Из сопроводительных материалов к обзору был взят лист таблицы с генами хромосомы, полученный из feature_table NCBI. Из него средствами Microsoft Excel были отобраны гены, кодирующие белки не короче 100 а.о., и скопированы в два tsv-файла: координаты белок кодирующих генов, координаты генов 16S РНК. С помощью скрипта, предоставленного Артемом Бурлакой, были получены файлы:


MEME и FIMO.

Параметры: 1 или 0 вхождений мотива в последовательность, искать 3 мотива, размер мотива 6-10 п.н., поиск только по данной цепи, остальные - без изменений. Результат можно увидеть на рис. 1.
В результате был получен мотив RAGGAV, близкий к SD, и его матрица PWM. Мотив имел 391 вхождение из 1803 возможных и был подан на вход FIMO. Поиск производился на ~5000 генов с p-value меньше 1E-4, поиск только на данной цепи. В результате было обнаружено 1723 сигнала, при этом лучшие находки были перед старт-кодоном

Рис.1
Рис.2

Мне показалось интересным, что если поменять входные параметры на размер мотива у МЕМЕ на 8-13 п.н., то в результате изменения мотива в таких условиях (мотив стал SRAGGAК, его PWM, тоже близкий к SD) происходт очень значительное увеличение количества сигналов на выходе у FIMO (с 1723 до 4576)
Рис.3
Рис.4