Отчёт по практикуму 7

Подсчёт информационного содержания последовательности Козак Danio rerio

Первым заданием, для выполнения «в классе», было оценить информационное содержание последовательности Козак D. rerio и построить LOGO данного сигнала.

Я выбрал вариант 8. Для подсчёта информационного содержания позиций и колонок был составлен сценарий на языке Python. Результат можно видеть в таблице 1. В последней строке указан вес колонок, полученный суммированием по всем видам нуклеотидов. Суммарный вес колонок (вес выравнивания, или вес сигнала) равен 11,14. Количество информации для позиции выравнивания вычислялось как произведение f(b, j) log2(f(b, j)/ p(b)) (здесь f(b, j) — частота основания b на позиции j, p(b) — базовая частота основания).

Таблица 1. Информационное содержание отдельных позиций и колонок выравнивания.
Col. 1 2 3 4 5 6 7 8 9
A 0,15 1,30 0,28 -0,12 1,70 0,00 0,00 0,00 0,04
C 0,98 0,00 -0,10 1,19 0,00 0,00 0,00 0,00 0,59
G 0,00 -0,07 -0,10 -0,07 0,00 0,00 2,37 1,41 -0,07
T 0,00 0,00 0,15 0,00 0,00 1,70 0,00 -0,05 -0,15
1,13 1,23 0,23 1,00 1,70 1,70 2,37 1,36 0,42

На рисунке 1 приведено LOGO сигнала, полученное с помощью webLOGO. К сожалению, эталонную нумерацию получить не удаётся из-за того, что нуль не убирается.

webLOGO
Рисунок 1.
LOGO последовательности Козак D. rerio.

Проверка находок MEME для сайтов регуляции разрывной транскрипции sgmRNA

Здесь используется FIMO — программа из MEME Suite, осуществляющая в каком-то смысле обратное MEME действие: она ищет мотивы в геноме и оцениивает их. Практикум продолжает работу, начатую в предыдущем.

Все три мотива нашлись в геноме, но наиболее достоверным был первый. Он нашёлся и в лидерной последовательности вирусной РНК, и перед каждым поздним геном, причём в ряде случаев (в наиболее достоверных!) очень близко к старт-кодону. Отчёт FIMO можно скачать.

Чтобы построить LOGO последовательности Козак вируса, были взяты участки с координатами -9..4 всех генов коронавируса. Полученное выравнивание затем обработано WebLOGO.

my virus's kozak
Рисунок 2.
LOGO последовательности Козак моего вируса.

Из-за того что сюда попадают по-разному расположенные мотивы регуляции транскрипции, содержательную информацию здесь разглядеть сложно. В принципе с последовательностью Козак человека совпадает A на позиции -3 (см. английскую «Википедию» и файл с последовательностями для ручного построения PWM в практикуме 6). И то это может быть совпадением, ведь зрелая мРНК вируса будет содержать на бывших позициях сайтов регуляции транскрипции другие фрагменты.

Мотивы, найденные MEME в геноме моего вируса, я также наложил с помощью FIMO на геном вируса другого штамма и другого вида альфакоронавирусов. В геноме другого штамма этого же вида практически все те же мотивы на тех же местах (по крайней мере первый мотив). У другого вида первый мотив отходит на задний план, хотя именно он (а скорее, его гомолог) нашёлся в лидерном участке РНК. Отчёты FIMO: другой штамм, другой вид.