Я взяла выравнивание из 2ого варианта
Ссылка на файл с расчетами
Для расчета IC сначала пришлось посчитать частоту букв (f(b,j)) в колонке, потом, считая, что GC-контент в данио-рерио 38.6% (теперь знаем обычные частоты букв p(b)), найти IC по формуле
IC(b, j) = f(b,j) * log2(f(b,j)/p(b))IC колонки можно расситать как сумму IC букв в этой колонке.
Найденный мотив
Интересно, что все найденные последовательности с p-value < 0.0001 - их 10 - 7 из них (синие) - ровно те, которые нашел МЕМЕ.
Еще 3 лишних находится внутри полипротиена. Интересно, как они соотносятся с началами открытых рамок белков полипротеина.
Мотив нельзя назвать идеальным, но, думаю, он какую-то информацию несет:
1. Длина мотива не 6, как в статье и не сильно соответствует консервативной части (core sequence)
из статьи. Найденным мотив даже разрывен, и имеет на 11 нуклеотидах 4 крайне высококонсервативных места.
2. ОДИН сигнал есть в лидерной последовательности, до начала гена ORF1ab полипротеина.
3. Перед каждым поздним геном есть ОДИН сигнал на участке фиксированной длины
4. В 2х из 8и генов ATG был, то последовательность Козак менее соответствует последовательности Козак для человека, чем последовательность Козак позднего гена.
5. Нашлось три лишних сигнала, соответствующих мотиву - все внутри гена полипротеина.
6. Вероятность найти случайно мотив, обладающий перечисленными свойствами, мала.
МЕМЕ долго не мог обнаружить ATG и окружение - пришлось укоротить до +- 13 нуклеотидов, и то нахока не очень аккуратна.
Настоящая Козак, взятая из википедии:
LOGO для 8и поздних генов вируса:
МЕМЕ долго не мог обнаружить ATG и окружение - пришлось укоротить до +- 13 нуклеотидов, и сигнал есть только после ATG и только в 6и генах.
Лого, построенное на белках показывает, что на самом деле там сложно говорить о Козак-последовательности
Выдача МЕМЕ для поиска Козак
И, тем не менеее, судя по всему, окружение ATG вируса похожа на человеческую Козак,
что вполне лоигично - ведь вирусу необходимо, чтобы человеческая клетка
приняля вирусную мРНК за свою и начала транслировать. Найденное окружение также подтверждает разметку генома.
Очень интересно сходство в 18 и 14 позиции на LOGO!!
Был взят дополнительный штамм Thrush coronavirus HKU12-600, и близкородственный вид Magpie-robin coronavirus HKU18 из
рода Deltacoronavirus.
Поиск осуществлялся с порогом E-value = Е-4.
В том же штамме нашлись те же 10 находок - что косвенно доказывает значимость сигнала. В
близкородственном виде есть 4 находки, причем 1 из них тоже перед лидерным пептидом. 4 соответствия - маловато, но
может
Находке в другом штамме
Находки в близкородственном виде
Находки в изначальном геноме
Последовательности в изначальном геноме
Последовательности в другом штамме
Последовательности в близкородственном виде