Отчёт по практикуму 6

Коронавирусная эпидемия COVID-19 бушует, и вот на этой неделе мы оказались на дистанционном обучении. Но мы не сдаёмся и используем коронавирусы в нашем практикуме на поиск мотивов.

Составление PWM для последовательности Козак конкретного вида

Первым заданием, для выполнения в классе, было сделать позиционную матрицу весов для последовательности Козак одного из видов, приведённых в статье Grzegorski et al., PLoS ONE 9(9): e108475, 2014. Я взял домашнюю курицу Gallus gallus.

В классе было оговорено упрощение: считать проценты нуклеотидов на данной позиции их абсолютными количествами. Изначально файл Excel с вычисленной таблицей был отправлен по e-mail, но теперь его можно и скачать.

Поиск сайтов регуляции разрывной транскрипции у коронавируса

Оказывается, у коронавирусов есть особые последовательности, регулирующие соотношение между репликацией (транскрипцией) их РНК и трансляцией. Они имеют общий консервативный участок — core sequence (CS), — на него и нужно было ориентироваться при поиске мотивов.

Я выбрал Human Coronavirus NL63, относящийся к альфа-коронавирусам. Его CS, согласно обзору, является последовательность 5'-AACUAAAC-3'. Для поиска я использовал веб-сервис MEME. По рекомендациям из подсказок я вначале использовал upstream-участки каждого гена, но после первого запуска оказалось, что у белка spike protein CS заходит на стартовый кодон. Пришлось немного продлить область поиска и провести его заново. Выдачу MEME можно скачать в формате html. Консенсусной последовательностью найденного мотива получилась 5'-TCTMAACTAAAC-3', или 5'-UCUMAACUAAAC-3' (содержит CS и ещё несколько нуклеотидов с 5'-конца).

Как оказалось, в полном геноме коронавируса несложно найти сигналы, особенно когда знаешь, какие мотивы искать!