Сигналы в геноме

I. Описание сигнала

Сплайсинг пре-мРНК

Перед трансляцией пре-мРНК претерпевает процессинг (превращение в мРНК), частью которого является сплайсинг. Сплайсинг - процесс вырезания некодирующих участков (интронов) и сшивания кодирующих участков (экзонов) первичного транскрипта. Вырезание и сшивание участков происходит благодаря сплайсосоме, представляющей собой рибонуклеопротеиновый комплекс из малых ядерных РНК (snRNA) и белков.

Как происходит вырезание некодирующих участков?

Интроны в своём составе имеют: донорный сайт - 5'-конец (сайт) интрона, содержащий два нуклеотида, чаще всего это GU (на донорном сайте происходит сборка сплайсосомы); точка ветвления (BPS - brancpoint) - последовательность 25-50 bp, включающая А, - участвует в образовании структуры, называемой "лариат"; акцепторный сайт - 3'-конец (сайт) интрона, содержащий AG. Между точкой ветвления и 3'-сайтом интрона может располагаться полипиримидиновый участок (PPT - polypyrimidine tract), состоящий из C и U.

На Рис. 1, B приведена структура интрона для Metazoa и других организмов, не относящихся к многоклеточным.

Разберём работу так называемой "основной" сплайсосомы, которая сплайсирует интроны, содержащие GU на 5'-конце интрона и AG на 3'-конце интрона.

Сплайсосома состоит из пяти snRNPs (small nuclear ribonucleoproteins) - U1, U2, U4, U5 и U6. Кроме того, для сборки сплайсосомы требуются несколько белков, включая U2AF1 (U2AF35), U2AF2 (U2AF65) и splicing factor 1 (SF1).

>> Образование комплекса E:

U1 связывается с последовательностью GU на 5'-сайте сплайсинга интрона; SF1 связывается с BPS; U2AF1 связывается с 3'-сайтом сплайсинга интрона; U2AF2 связывается с полипиримидинным трактом.

>> Комплекс A (пре-сплайсосома):

Далее U2 вытесняет SF1 и связывается с точкой ветвления, АТФ гидролизуется.

>> Образование комплекса B (пре-каталитическая сплайсосома):

Затем U5/U4/U6 связываются между собой, snRNP U5 связывается с экзонами на 5'-сайте, U6 также связывается с U2.

>> Комплекс B*:

После этого snRNP U1 высвобождается, U5 сдвигается от экзона к интрону, U6 связывается с 5'-сайтом сплайсинга.

>> Комплекс C:

Потом высвобождается U4, U6/U2 соединяет 5'-конец интрона с A в точке ветвления, образуется лариат, U5 связывается с экзоном на 3'-сайте сплайсинга, и 5'-сайт расщепляется.

>> Комплекс C* (пост-сплайсосомный комплекс):

U2/U5/U6 остаются связанными с лариатом, 3'-сайт расщепляется, экзоны лигируются с помощью гидролиза АТФ.

Происходит образование сплайсированной РНК, лариат высвобождается и деградирует, snRNP перерабатываются.

Цикл работы сплайсосомы показан на Рис. 1, C.

Рис. 1. Сплайсинг пре-мРНК.
Рис. 1. Сплайсинг пре-мРНК. A, процесс сплайсинга; B, строение интрона; C, цикл сборки и работы сплайсосомы.

Список литературы

  1. Cindy L. Will, Reinhard Lührmann. (2011). Spliceosome structure and function. Cold Spring Harb Perspect Biology. doi: 10.1101/cshperspect.a003707.
  2. Matera A. G., Wang Z. (2014). ). A day in the life of the spliceosome. Nature Reviews. Molecular Cell Biology. doi:10.1038/nrm3742.

II. Поиск последовательностей представителей для одного из сигналов в геноме, построение PWM и оценка результатов поиска по этой PWM новых сайтов

Была выбрана последовательность Козак, окрестность кодона ATG человеческого генома. Скачаем с kodomo таблицу, содержащую гены. Далее для получения файлов и PWM-матрицы был использован скрипт, позаимствованный у Влада Начатого.

Были получены следующие файлы:

Также получена следующая PWM-матрица:

Таблица 1. PWM-матрица.
Рис. 2. PWM-матрица.

По данной матрице было получено распределение весов последовательностей в группе обучения, тестовой группе и негативном контроле (Рис. 2, Рис. 3, Рис. 4).

Рис. 2. Группа обучения.
Рис. 2. Группа обучения.
Рис. 3. Тестовая группа.
Рис. 3. Тестовая группа.
Рис. 4. Негативный контроль.
Рис. 4. Негативный контроль.

Выберем порог, равный 4,0. С учётом этого рассмотрим количество положительных и отрицательных сигналов в каждой из трёх групп по порогу:

Таблица 2. Количество последовательностей, которые прошли порог (4,0).
Рис. 5. Таблица 2.

Затем посчитаем IC-содержание и выведем результат в виде таблицы 3:

Таблица 3. Матрица информационного содержания.
Рис. 6. Таблица 3.

Также последовательности группы обучения была подана вход WebLOGO 3 (результат выдачи сервиса представлен на Рис. 5):

Рис. 5. LOGO.
Рис. 5. LOGO. Больший информационный вес имеют позиции: 5, 7, 8, 9, 10.