В данном практикуме была произведена попытка найти важную сигнальную последовательность, а именно последовательность Шайна-Дальгарно (SD), которая как известно нужна для связывания рибосомы с молекулой мРНК у прокариот. Поиск производился в геноме археи Methanocaldococcus lauensis, по которой был сделан мини-обзор. Для начала необходимо было подготовить данные для поиска, для этого понадобилась нуклеотидная последовательность хромосомы археи в формате fasta, а также аннотация этой хромосомы в формате gff3 (все данные взяты из NCBI). На основании этих данных с помощью написанного мною скрипта (скрипт ищет и вырезает нужные участки в геноме по аннотации, после чего создает файлы с наборами) было создано 3 набора последовательностей:
На основании созданной группы для обучения с помощью локального MEME в консоли бел осуществлен поиск мотива похожего на SD следующей командой:
Искался один мотив (-nmotifs 1) длиной от 5 до 10 нуклеотидов (-minw 5 и -maxw 10), что как раз соотвествует SD согласно литературным данным. Полную выдачу MEME можно увидеть здесь (текстовый формат выдачи тут). На Рис. 1 можно видеть лого-диаграмму для найденного мотива (а на Рис. 2 лого-диаграмму для последовательности комплементарной найденному мотиву).
Из результатов выдачи программы MEME можно заключить, что находка является статистически значимой (очень низкий E-value = 9.4e-072). Паттерн найденного мотива следующий: WWWWAGGTGR; а консенсус: ATTAAGGTGA. Видим, что имеются сильные сходства с SD, особенно последние 6 букв (по литературным данным SD богата AG, а консенсусом считается AGGAGG). Теперь можно попробовать отыскать этот мотив в группах для контроля.
С помощью локального FIMO в консоли был существлен поиск найденного для группы обучения с помощью MEME мотива для обеих групп контроля следующими командами:
Параметр -thresh 0.001 нужен для фильтрации незначимых находок (оставляет лишь те находки, для которых p-value меньше 0.001). Выдачу FIMO для группы положительного контроля можно посмотреть тут, а для отрицательного здесь. По результатам выдачи оказалось, что среди группы положительного контроля 851 значимая находка (что больше половины подаваемых в группе последовательностей), а среди группы отрицательного контроля всего 61 значимая находка (меньше 4% от общего числа, очень мало, как и ожидалось). Данные результаты позволяют заявить, что вполне вероятно, что найденный мотив ATTAAGGTGA является консенсусной SD или по крайней мере ее аналогом для данной археи (либо хотя бы какая-то его часть, скорее всего последние 6 букв).