Практикум 7

Задание 2

Я взял 7 вариант задания.
Была построена таблица количества букв для каждой позиции в выравнии, затем по ней таблица частот букв.
По ней была создана таблица IC для каждой буквы.
Далее были просуммированны IC для столбцов, а затем все столбцы, чтобы вычислить итоговое значение IC.
Формула для вычисления IC для каждой ячейки таблицы: IC(b, j) = f(b,j) * log2(f(b,j)/p(b))

Таблица

Также было построено LOGO при помощи сервиса

Задание 3

В прошлом практикуме при помощи МЕМЕ я искал сайты регуляции разрывной транскрипции в геноме коронавируса Scotophilus bat coronavirus 512. Наиболее правдоподобным, на мой взгляд, оказался мотив, представленный ниже . PWM, соответствующую этому мотиву, я загрузил в программу FIMO. Результат её работы представлен ниже: В выдаче было 9 находок, 6 из которых располагались перед генами. 2 другие находки попали внутрь других генов, и 1 располагалась после последней из кодирующих последовательностей. Найденный мотив имеет самую консервативную часть длиной 6 нуклеотидов (TTCAAC) (Core Sequence). До начала гена ORF1 полипротеина есть ровно 1 сигнал. Перед каждым из поздних генов на участке -100 - -1 от старта трансляции есть ровно 1 сигнал. Вероятность случайно найти мотив с такими свойствами мала (хорошие значения p-value).

Поиск сигнала в близкородственных видах

К сожалению, в ncbi отсутствуют геномы других штаммов этого коронавируса, как и геномы вирусов, принадлежащих к тому же подроду, поэтому я взял два других коронавируса рода Alphacoronavirus.
В качестве первого я выбрал Alphacoronavirus Bat-CoV/P.kuhlii/Italy/3398-19/2015, выдача FIMO представлена ниже Найденные мотивы не расположены в upstream областях, данный мотив не встречается перед геном, кодирующим полипептид, поэтому я не думаю, что в данном вирусе он регулирует разрывную транскрипцию.
В качестве второго представителя рода Alphacoronavirus я выбрал Rousettus bat coronavirus HKU10. Выдача FIMO представлена ниже:. Для этого вируса найденные мотивы так же не расположены в upstream областях генов, и данного мотива нет перед геном полипептида, поэтому я не думаю что для этого вируса он регулирует разрывную транскрипцию. Таким образом, данный мотив скорее всего не является специфичным для рода, а для более близких родственников мы не можем делать выводов, так как в ncbi отсутствуют такие геномы.

LOGO для последовательностей Козак поздних генов

Для построения LOGO я вырезал участки генома расположенные на +-5 нуклеотидов он старт-кодона (с позиций -5 до 8 от начала генов), и затем воспользовался сервисом MEME.
Если сравнивать его с LOGO для последовательностей Козак генов человека, то окажется, как и у человека в позиции -3 у вируса чаще встречается аденин.