Учебная страница курса биоинформатики,
год поступления 2018
"Идеальный" мотив это такой, который подтверждает гипотезу о сигналах, регулирующих синтез мРНК поздних генов.
Мотив - правило, позволяющее в геноме данного коронавируса найти сигналы, регулирующие синтез мРНК поздних генов.
Варианты мотива:
- Матрица PWM для данного генома. Сигнал - находка FIMO с данной PWM в геноме (комплементарная последовательность не рассматривается) с E-value менее заданного порога.
- Паттерн. Сигнал - находка fuzznuc с данным паттерном.
- Последовательность консенсуса или паттерн с разрешенным числом несоответствий не более заданного числа (1 или 2, не более)
- Любое другое правило
Мотив идеально соответствующий гипотезе о сигналах, регулирующих синтез мРНК поздних генов, высказанной в Zuniga et al., Journal of Virology, 2004, должен обладать следующими свойствами.
- Длина мотива 6 (соответствует самой консервативной части, называемой CS (core sequence))
- ОДИН сигнал есть в лидерной последовательности, до начала гена ORF1ab полипротеина
- Перед каждым поздним геном есть ОДИН сигнал. Участок поиска ограничен фиксированной длиной, например, 100 нукл. (точно - начало участка не раньше старт кодона предшествующего позднего гена)
- Между сигналом и старт кодоном позднего гена нет ATG. Если есть, то последовательность Козак менее соответствует последовательности Козак для человека, чем последовательность Козак позднего гена.
- Других сигналы соответствующих мотиву нет
- Вероятность найти случайно мотив, обладающий перечисленными свойствами, мала.
В реальности не исключены отклонения от идеала.
Во-первых, потому, что это биология, в которой из каждого закона есть исключения
Во-вторых, техническая неточность при составлении мотива (в MEME или FIMO). Лишние сигналы могут появиться из-за недостаточно строгих порогов для программ. Пропуск сигнала может быть по противоположной причине. Можно попробовать найти пропущенный сигнал глазами по сходству с мотивом. Сходство оказалось недостаточным, чтобы быть зачтенным программой.