Перед трансляцией пре-мРНК претерпевает процессинг (превращение в мРНК), частью которого является сплайсинг. Сплайсинг - процесс вырезания некодирующих участков (интронов) и сшивания кодирующих участков (экзонов) первичного транскрипта. Вырезание и сшивание участков происходит благодаря сплайсосоме, представляющей собой рибонуклеопротеиновый комплекс из малых ядерных РНК (snRNA) и белков.
Как происходит вырезание некодирующих участков?
Интроны в своём составе имеют: донорный сайт - 5'-конец (сайт) интрона, содержащий два нуклеотида, чаще всего это GU (на донорном сайте происходит сборка сплайсосомы); точка ветвления (BPS - brancpoint) - последовательность 25-50 bp, включающая А, - участвует в образовании структуры, называемой "лариат"; акцепторный сайт - 3'-конец (сайт) интрона, содержащий AG. Между точкой ветвления и 3'-сайтом интрона может располагаться полипиримидиновый участок (PPT - polypyrimidine tract), состоящий из C и U.
На Рис. 1, B приведена структура интрона для Metazoa и других организмов, не относящихся к многоклеточным.
Разберём работу так называемой "основной" сплайсосомы, которая сплайсирует интроны, содержащие GU на 5'-конце интрона и AG на 3'-конце интрона.
Сплайсосома состоит из пяти snRNPs (small nuclear ribonucleoproteins) - U1, U2, U4, U5 и U6. Кроме того, для сборки сплайсосомы требуются несколько белков, включая U2AF1 (U2AF35), U2AF2 (U2AF65) и splicing factor 1 (SF1).
• U1 связывается с последовательностью GU на 5'-сайте сплайсинга интрона; • SF1 связывается с BPS; • U2AF1 связывается с 3'-сайтом сплайсинга интрона; • U2AF2 связывается с полипиримидинным трактом.
• Далее U2 вытесняет SF1 и связывается с точкой ветвления, АТФ гидролизуется.
• Затем U5/U4/U6 связываются между собой, snRNP U5 связывается с экзонами на 5'-сайте, U6 также связывается с U2.
• После этого snRNP U1 высвобождается, U5 сдвигается от экзона к интрону, U6 связывается с 5'-сайтом сплайсинга.
• Потом высвобождается U4, U6/U2 соединяет 5'-конец интрона с A в точке ветвления, образуется лариат, U5 связывается с экзоном на 3'-сайте сплайсинга, и 5'-сайт расщепляется.
• U2/U5/U6 остаются связанными с лариатом, 3'-сайт расщепляется, экзоны лигируются с помощью гидролиза АТФ.
Происходит образование сплайсированной РНК, лариат высвобождается и деградирует, snRNP перерабатываются.
Цикл работы сплайсосомы показан на Рис. 1, C.
Список литературы
Была выбрана последовательность Козак, окрестность кодона ATG человеческого генома. Скачаем с kodomo таблицу, содержащую гены. Далее для получения файлов и PWM-матрицы был использован скрипт, позаимствованный у Влада Начатого.
Были получены следующие файлы:
Также получена следующая PWM-матрица:
По данной матрице было получено распределение весов последовательностей в группе обучения, тестовой группе и негативном контроле (Рис. 2, Рис. 3, Рис. 4).
Выберем порог, равный 4,0. С учётом этого рассмотрим количество положительных и отрицательных сигналов в каждой из трёх групп по порогу:
Затем посчитаем IC-содержание и выведем результат в виде таблицы 3:
Также последовательности группы обучения была подана вход WebLOGO 3 (результат выдачи сервиса представлен на Рис. 5):