Сигналы и мотивы, 2

Задание 1. Последовательности Козак в геноме Данио Рерио. Вариант 2.

Матрица с информационными содержаниями отдельных букв и колонок Информационное содержание рассчитывалось следующим образом: сначала было определено число различных букв в каждой позиции N(b,j) и подсчитана их частота f(b,j)=N(b,j)/N. Ожидаемые частоты букв p(b,j) рассчитывались исходя из того, что содержание GC пар в геноме Данио Рерио составляет 38,6%. Итоговое значение IC рассчитывалось по формуле IC(b,j)=f(b,j)*log2(f(b,j)/p(b))=f(b,j)*w(b,j) (произведение наблюдаемых частот букв на вес из матрицы PWM без pseudocounts. Информационное содержание позиции рассчитывается как сумма информационных содержаний различных букв в позиции, суммарное IC сигнала - сумма IC всех позиций. Суммарное информационное содержание выравнивания составило 10,45.

Картинка LOGO
.

Задание 2. Проверка PWM для сайтов регуляции разрывной транскрипции sgmRNA.

Выдача FIMO.Было найдено 8 из 9 найденных МЕМЕ последовательностей. Они все находятся перед генами белков, на участках в 100 нуклеотидов, e-value достаточно мал, чтобы находка не была случайной. Длина мотивов 11, но на самом деле, если отбросить концевые буквы, совпадающие не во всех последовательностях, получается 9, что немного отклоняется от идеальной.

LOGO последовательностей Козак генов SARS CoV
МЕМЕ нашёл последовательности Козак только перед тремя поздними генами из 9.
При этом старт-кодон есть во всех поздних генах.
LOGO последовательностей Козак генов человека. Совпадения и схожести обнаружены в позициях -1, -3, +1,+2,+4,+6.

Поиск в последовательностях других вирусов
Мотив из генома SARS CoV

В качестве близкородственного вируса был выбран вирус SARS CoV-2. В его геноме был найден очень похожий мотив, то есть он видоспецифичен.
Мотив из генома SARS CoV-2

Betacoronavirus Erinaceus/VMC/DEU/2012 - выбранный вирус из семейства бетакоронавирусов, не близко, но состоящий в родстве с выбранным выше. Выдача МЕМЕ. Из неё видно, что искомый мотив находится далеко не во всех последовательностях поздних генов, и находится не совсем то, что нужно. Значит, мотив для семейства не специфичен.