7.2 Информационное содержание

Я взяла выравнивание из 2ого варианта Ссылка на файл с расчетами
Для расчета IC сначала пришлось посчитать частоту букв (f(b,j)) в колонке, потом, считая, что GC-контент в данио-рерио 38.6% (теперь знаем обычные частоты букв p(b)), найти IC по формуле

IC(b, j) = f(b,j) * log2(f(b,j)/p(b))    
IC колонки можно расситать как сумму IC букв в этой колонке.
Суммарное IC сигнала - 10.44531203
В результате вышла табличка:
image Также построено лого:
image

7.3 Проверка PWM для сайтов регуляции разрывной транскрипции sgmRNA

Найденный мотив
image

B

image
Интересно, что все найденные последовательности с p-value < 0.0001 - их 10 - 7 из них (синие) - ровно те, которые нашел МЕМЕ. Еще 3 лишних находится внутри полипротиена. Интересно, как они соотносятся с началами открытых рамок белков полипротеина. Мотив нельзя назвать идеальным, но, думаю, он какую-то информацию несет:
1. Длина мотива не 6, как в статье и не сильно соответствует консервативной части (core sequence) из статьи. Найденным мотив даже разрывен, и имеет на 11 нуклеотидах 4 крайне высококонсервативных места.
2. ОДИН сигнал есть в лидерной последовательности, до начала гена ORF1ab полипротеина.
3. Перед каждым поздним геном есть ОДИН сигнал на участке фиксированной длины
4. В 2х из 8и генов ATG был, то последовательность Козак менее соответствует последовательности Козак для человека, чем последовательность Козак позднего гена.
5. Нашлось три лишних сигнала, соответствующих мотиву - все внутри гена полипротеина.
6. Вероятность найти случайно мотив, обладающий перечисленными свойствами, мала.

С

image
МЕМЕ долго не мог обнаружить ATG и окружение - пришлось укоротить до +- 13 нуклеотидов, и то нахока не очень аккуратна.
Настоящая Козак, взятая из википедии: image
LOGO для 8и поздних генов вируса: image
МЕМЕ долго не мог обнаружить ATG и окружение - пришлось укоротить до +- 13 нуклеотидов, и сигнал есть только после ATG и только в 6и генах. Лого, построенное на белках показывает, что на самом деле там сложно говорить о Козак-последовательности
Выдача МЕМЕ для поиска Козак
И, тем не менеее, судя по всему, окружение ATG вируса похожа на человеческую Козак, что вполне лоигично - ведь вирусу необходимо, чтобы человеческая клетка приняля вирусную мРНК за свою и начала транслировать. Найденное окружение также подтверждает разметку генома. Очень интересно сходство в 18 и 14 позиции на LOGO!!

D

Был взят дополнительный штамм Thrush coronavirus HKU12-600, и близкородственный вид Magpie-robin coronavirus HKU18 из рода Deltacoronavirus.
Поиск осуществлялся с порогом E-value = Е-4. В том же штамме нашлись те же 10 находок - что косвенно доказывает значимость сигнала. В близкородственном виде есть 4 находки, причем 1 из них тоже перед лидерным пептидом. 4 соответствия - маловато, но может
Находке в другом штамме
Находки в близкородственном виде
Находки в изначальном геноме
Последовательности в изначальном геноме
Последовательности в другом штамме
Последовательности в близкородственном виде

A