GC состав был взят за 50% ( источник ).
Скачать таблицу с вычислениями можно по ссылке.
Для выполнения задания я выбрала вирус Human betacoronavirus 2c EMC/2012 из семейства Coronaviridae. Геном этого вируса можно загрузить по ссылке.
Всего в геноме бетакоронавируса закодировано 11 белков. В них входит полипротеин orf1ab и поздние белки. Список этих белков и координаты их генов можно увидеть в feature_table.
Я взяла все нуклеотиды до старта трансляции полипротеина и по 100 нуклеотидов до старта трансляции поздних белков, в надежде, что туда попадёт сигнальная последовательность. Файл с собранными upstream-последовательностями можно скачать по ссылке.
Чтобы обнаружить возможные мотивы я использовала пакет MEME. Моя команда выглядела так:
meme upstream.fasta -oc result -dna -mod zoops -nmotifs 3 -minsites 2 -maxsites 600 -minw 6 -maxw 50
На выходе я получила папку result. С её содержимым можно ознакомиться по ссылке.
Рассмотрим первый мотив. Он был обнаружен во всех 10 входных последовательностях. Возможно, CS является последовательность AACGAA (но не вписываются в картину последние 2 находки). Тогда нуклеотиды вокрут CS могут составлять TRS.