Практикум 7. Сигналы и мотивы часть 2
Задание 1
Я взят выравнивания из предыдущего задания по геному коронавируса из предыдущего практикума. EXCEL файл с рассчетами. Зная частоты букв из полного генома. Далее я расчитывал IC по формуле:
IC(b, j) = f(b,j) * log2(f(b,j)/p(b))
IC колонки, как известно, равняется сумме IC букв в этой колонке. Суммарное IC сигнала оказалось равным 8,68.
Также при помощи веб-сервиса построено лого:
Задание 2
При помощи программы FIMO я искал мотив, найденный программой MEME в геноме того самого коронавируса, где этот мотив нашелся. Помимо самого источника, мотив искался в другом штамме этого же коронавируса и в родственном виде коронавирусов.
Результаты поиска:
Другой штамм
Родственный вид
Все 9 последовательностей генов в изначальном геноме были успешно найдены. В другом штамме этого же вида по мотиву также нашлись 9 генов. Их локализация была другой(скорее всего в результате эволюции в геноме происходили делеции и инсерции), но последовательность мотива - той же. Но вот при запуске программы с геномом родственного коронавируса, количество найденных мотивов снизилось до 3. У данного вида коронавирусов всего 7 генов. Видимо 4 из них не содержат наш сигнал.
При помощи веб сервиса webLOGO была построена LOGO - диаграмма последовательности Козак. К сожалению один из генов содержал странный старт-кодон, не похожий на старт-кодон, поэтому его было решено выкинуть.
Будем сравнивать с последовательностью Козак человека.
Видно, что в консенсусной последовательности Козак коронавируса нет консенсуса. На последовательность человека она совсем не похожа.