IC.

Я брала информацию о выравнивании из варианта 7 пракрикума. Результа и матрицу можно найти в таблице ниже. Для начала я нашла частоты букв в выравнивании, которые содержатся в первой рамке таблицы. Частоты букв GC у данио-рерио (38.6%) были нам даны в прошлом практикуме. Далее был построены матрицы с информационным содержанием отдельных букв и колонок(просуммировала колонку). Итоговое информационное содержание получилось равным 10.1324. Формулы для вычисления также приведены в таблице в виде рамочки.

Матрица.

Картинка LOGO для выравнивания:

image

3.Проверка PWM

Oops

Найденные последовательности (красными блоками выделены нужные)

Oops Вся выдача meme: meme Данный мотив был получен в практикуме 6.

Задание 3.

a-b

В предыдущем пункте показан получившийся у меня мотив "AACTAAA". Он состоит из 7 нуклеотидов, но предположительно CS- "AACTAA". Каждый мотив(обозначен красным прямоугольником) был найден один раз перед поздними генами и в лидерной последовательности. Участок поиска был ограничен 100 нуклеотидами.

image

Видно, что вероятность найти такой мотив внутри гена не мала. Но сам мотив все еще соответствует критериям, описанным выше: он встречается один раз до полипротеина и один раз до генов. В CS перед геном 3 присутствует замена нуклеотда A на C. Это как раз отражено на картике Logo для мотива в предыдущем пункте. E-value был задан = 0.001, так как при более низких значениях результата не было.

Как видно вероятность найти данную или похожую последовательность в геноме не особо маленькая, но тем не менее меньше E-value=0,001. Однако вероятность найти мотив в нужных областях гораздо меньше этого значения.

c

Козак поздних генов.
image Козак генов человека.
image

Чтобы получить Logo, я взяла область старт-кодонов вирусов с 6 нуклеотидами до и после ATG. Если сравнивать полученный мной результат с последовательностью козак генов человека, можно отметить, что они весьма схожи в нуклеотидах на -3, -2 позициях. Чаще всего на этих позициях встречаются A и C. Сама последовательность козак вируса более длинная после старт-кодона.

d

Чтобы выполнить это задание, я взяла 2 наиболее близких вируса к моему в пределах рода, т. к. штамм не был найден. BtRf-AlphaCoV/HuB2013 и BtRf-AlphaCoV/YN2012. После загрузки геномов и мотива в Fimo, были получены следующие таблицы:

BtRf-AlphaCoV/YN2012 image
BtRf-AlphaCoV/HuB2013 image

Таким образом можно сказать, что мотив не особо специфичен для вида, так как вероятности его наличия у близкородственных организмов высока, особенно хорошо это выражено для вируса BtRf-AlphaCoV/YN2012. По результатам можно предположить, что у него идентичная CS.