Краткое описание организма и подготовки данных

В данной работе было решено рассмотреть геном коронавируса канадского гуся. А именно рассматривались субгеномные матричные РНК. Для этого был использован геном из базы данных NCBI. Затем были взяты по 100 нуклеотидов до начала каждого гена (для удобства использовалась программа SnapGene). Эти последовательности были записаны в один общий файл, который и импользовался затем программой MEME.

Программа MEME

Для запуска программы был взят ранее описанный файл (ознакомиться можно по ссылке - файл). В настройках поиска были изменены пункты: "site distribution" на значение "oops", "number of motifs" был заведомо выставлен на значенее большее, чем возможное число мотивов, чтобы найти их все в данных последовательностях и последним изменением было использование второй "background model" (последний пункт был подобран прямым подбором всех вариантов и анализом результатов). Также стоит упомянуть то, что поиск большого числа мотивов совершался с целью того, чтобы была возможность встретить хорошоие мотивы разной длины, так как p-value связана и с длиной, и с частотой букв в определенной позиции, а могло быть так, что в мотиве важны краевые участки длинной последовательности, а это понижает оценку для такого мотива, поэтому он может быть выдан не первым. В итоге были получены следующие результаты.

Программа FIMO

На вход программе был подан первый мотив (на мой взгляд именно этот паттерн лучше остальных, такой вывод я сделал по причине того, что предположение про важность только краевых участков было неверным, а также у данного паттерна наилучшее значение p-value и всего один неоднозначный нуклеотид в отличие от второго паттерна), полученный прошлой программой и геном коронавируса, паттерн представляет собой следующую последвательность - AACAAR. Однако для порога p-value 0,0001 не было находок, поэтому было решено увеличить этот порог до 0,001. Также было решено ограничить поиск только по одной цепи. По итогу получилось 12 находок с p-value 0,000306 и 15 находок с p-value 0,000728. С выдачей программы можно ознакомиться по ссылке - выдача.

Обсуждения

По результатам можно говорить, что найденный мотив был искомым и соответствует сигналу CS. За действительно хорошие находки я бы принял те, которых 15 штук. Хоть изначально и было 16 генов, меня очень удивило нахождение старт-кодона CUG (именно он был аннотирован в сборке, как старт кодон). Поэтому полученные результаты можно считать достоверными.