Вычисление информационное содержание (IC) последовательностей Козак в геноме данио рерио

Для выполнения задния был выбран четвётный варинат выравниваний. Ссылка на xlsx таблицу с выравниваним и промежуточными вычислениями. Алгоритм выполнения задания:

  • Подчёт количеств букв в каждой из позиций
  • Подчёт частот букв f(b,j)
  • Подчёт значений IC(b,j) = f(b,j)*log2[f(b,j)/p(b)] для каждой позиции
  • Суммирование по столбцу для получения IC(j)
  • Суммирование IC(j)
  • Получившееся занчение IC равно 10.4757644747296
    Также выравнивание было загружено в сервис webLOGO для получения диаграммы LOGO. Её можно увидить на Рис.1.

    Something went wrong :(
     Рис.1 LOGO выравнивания из варианта 4


    Поиск мотива в геноме Bat coronavirus CDPHE15/USA/2006 с помощью программы FIMO

    Для выполнения этого задания использовался мотив из прошлого практикума . По html выдаче meme проводился поиск мотива в геномах исходного генома, в геноме другого штамма - Myotis lucifugus coronavirus, а также в геноме родственного короновируса Rousettus bat coronavirus HKU10. Порог E-value был выставлен в 0.001. Команда запуска:
    fimo --motif 1 --norc --verbosity 1 --output-pthresh 1.0E-3 meme_out2/meme.html NC_022103.1.fasta
    Для других геномов fimo запускалось с аналогичными параметрами. результат работы fimo можно скачать:

  • Bat coronavirus CDPHE15/USA/2006
  • Myotis lucifugus coronavirus
  • Rousettus bat coronavirus HKU10

  • Также находки fimo для исходного генома представлены на Рис.2. Можно увидеть, что с хорошими e-value fimo нашел мотив как раз в upstream областях генов. Хотя одна неплохая находка почему-то нашлась между генами PP1a и S. В других геномах нашлось 15 и 29 находок соответственно. Обилие находок с хорошим e-value как в другом штамме, так и в соседнем виде, указывает на то, что мотив распространенный. В геноме Myotis lucifugus coronavirus расположение мотивов частично совпадает с мотивами в исходном геноме, что вобщем-то и ожидалось.

    Для исходного вируса также были найдены последовательности Козак и построено LOGO в вебсервисе webLogo (Рис.3). Его требовалось сравнить с Logo последовательностb Козак человека (Рис.4). Изображение взято из Википедии. Как видно, они похожи только в паре позиций - +2 от ATG, где чаще встречается цитозин и в -3 от ATG, где чаще аденин. Возможно, белки этого конкретного вируса было бы сложнее транслировать рибосоме человека, раз последовательности Козак так непохожи (зато, наверное, просто во всяких инфузориях и слизевиках, у них, судя по Википедии, как раз много аденинов в последовательности Козак).

    Something went wrong :(
     Рис.2 Результат работы fimo с подписями в Libre Office 
    Something went wrong :(
     Рис.3 Logo последовательности Козак для Bat coronavirus CDPHE15/USA/2006 
    Something went wrong :(
     Рис.4 Logo последовательности Козак человека