Построение матрицы весов.
В качестве организма была выбрана D. rerio. Скачать файл здесь.
Поиск сайтов регуляции разрывной транскрипции sgmRNA.
В качестве исследуемого органзима был выбран Miniopterus bat coronavirus 1, относящийся к коронавирусам. Его геном (его можно скачать здесь) относительно небольшой и содержит всего 6 генов, кодирующих белки. Также был получен файл, где указаны координаты каждого гена. Я взяла всю последовательность с первого до -1 нуклеотида до старт-кодона белка полипротеина и 100 предшествующих каждому старт-кодону гена позднего белка нуклеотидов. Полученный файл я загрузила на сервер MEME для поиска сайтов регуляции разрывной транскрипции sgmRNA.
Настройки были следующими: Motif Site Distribution ZOOPS: Zero or one site per sequence Objective Function E-value of product of p-values Starting Point Function E-value of product of p-values Site Strand Handling Sites must be on the given strand Maximum Number of Motifs 3 Motif E-value Threshold no limit Minimum Motif Width 5 Maximum Motif Width 50 Minimum Sites per Motif 2 Maximum Sites per Motif 6
Результат выдачи можно увидеть на рисунке 1. Как видно, программа нашла три мотива с хорошим E-value почти во всех генах белков. Самым подходящим на роль последовательности, содержащей CS, я считаю первый мотив, ширина которого 14, а на рисунке 2 он обозначен красным прямоугольником.
Чтобы увидеть первый мотив на пятом гене (membrane protein), я оставила только несколько нуклеотидов с 5` стороны каждого гена от начала найденного первого мотива. Для пятого гена я увеличила количество нуклеотидов с 3`-конца в надежде, что CS сигнал заходит за старт-кодон гена. Полученный файл в формате fasta я загрузила снова на сайт MEME. В параметрах был изменен пункт: искать только один мотив, длиной от 5 до 20 нуклеотидов. По рисунку 3 видно, что нашелся только один мотив во всех генах, но его ширина уменьшилась до 12 нуклеотидов. Так что этот результат можно считать успехом. Полученный logo виден на рисунке 4.