Практикум 6. Сигналы и мотивы

Сигналы сплайсинга

Сплайсинг является одним из этапов процессинга мРНК, в ходе него из пре-мРНК вырезаются некодирующие последовательности - интроны. Основной тип сплайсинга осуществляется сплайсосомой, необходимо несколько сигналов: последовательность GURAGU на 5'- конце интрона, точка ветвления YNYURACN, последовательность YYYYYYYYCAG на 3'- конце интрона (Рис.1).

site
Рис 1.Сайты сплайсинга. Красным - первый экзон, синим - интрон, желтым - второй экзон. BS - точка ветвления. N – любой нуклеотид, Y – пиримидин, R – пурин.

Сплайсосома состоит из 5 малых ядерных РНК (U1, U2, U4, U5, U6). Точку ветвления узнает U2AF и белок BBP, 5'-сайт - U1. Далее собирается сплайсосома, в результате внутренних перестроек происходят две реакции переэтерификации. В ходе первой идет разрезание по 5'-сайту сплайсинга и образуется структура лассо. В ходе второй при участии U6 идет разрезание по 3'-сайту сплайсинга и соединение экзонов (Рис. 2).

splicing
Рис. 2. Механизм сплайсинга

При альтернативаном сплайсинге часть интронов может оставаться в мРНК, это говорит о низкой эффективности сигналов сплайсинга (адресат не всегда реагирует на сигнал), но конкретные механизмы альтернативного сплайсинга ещё не изучены.

Источники

1. Б. Альбертс, А. Джонсон, Д. Льюис и др. Молекулярная биология клетки: в 3-х томах. Т. 1. М.-Ижевск: НИЦ "Регулярная и хаотическая динамика", Институт компьютерных исследований. 2013, 808.

Построение PWM для последовательности Козак человека

Для выполнения данного задания использовался адаптированный скрипт Дмитрия Звездина. На вход подавалась таблица human-genes.tsv, содержащая информацию о генах человека. Были выбраны 200 последовательностей из которых вырезался фрагмент вида: 7 нуклеотидов до старт-кодона + ATG + 3 нуклеотида после. Тестовая выборка, выборка обучения. Для негативного контроля использовались участки с ATG удаленные от начала гена на 200 и более нуклеотидов.

Полученная PWM:

Таблица 1. Позиционная весовая матрица для последовательности Козак человека
PWM

Позитивный контроль имеет средний вес 5.25, отрицательный - 4.34. Тест Манна-Уитни показывает наличие статистически достоверной разницы (p-value=0.01).

Информационное содержание последовательности Козак и LOGO

Также была получена матрица информационного содержания:
Таблица 2.Матрица информационного содержания
IC

С помощью сервиса WebLogo 3 построено LOGO:

tree
Рис. 3.LOGO для последовательности Козак

Видно, что последовательность до и после кодона также имеет значимый вес.

Подсчет числа сайтов GAATTC в полном геноме E.coli

Для подсчета был взят штамм Escherichia coli CFT073, использовался скрипт. Реально число сайтов GATTC равно 743, ожидаемое - 1252. Для оценки статистической значимости использовался Хи-квадрат тест, полученное p-value = 4.385e-30, значит отличие статистически значимое.