Трансляция многих белков, участвующих в транскрипции, развитии клеточного цикла и апоптозе, опосредована внутренними сайтами посадки рибосом (IRES), присутствующими в 5'-нетранслируемых областях (5'-UTR) их молекул матричной РНК (мРНК). Это альтернативное средство инициации синтеза белка, которое позволяет производить новые белковые молекулы, даже когда зависимая от кэпа инициация трансляции ослаблена. Так, большинство молекул мРНК, которые используют IRES для трансляции, кодируют белки, которые необходимы в условиях снижения кэп-зависимой инициации трансляции (например, во время митоза, апоптоза и клеточного стресса).
Также этот мотив важен для синтеза белковых продуктов вирусов эукариот.
IRES не имеют консервативных мотивов, их последовательности могут изменятся в различных видах. IRES образуют стабильную вторичную структуру - шпильку. Ее "жесткость" может регулировать инициацию трансляции, в том числе ингибировать ее. IRES могут также обусловливать образование различных изоформ белка, тем самым расширяя число возможных белковых продуктов, получаемых с гена. Существуют белковые факторы, способные усиливать влияние IRES, например ITAF.
Геном полиовируса, содержащий IRES
Источники:
В этот раз предлагается исследовать последовательность Козак и убедиться в ее специфичности. Для выполнения задания студент Максим Смирнов поделился своим скриптом, за что выражаю ему благодарность, ознакомится можно здесь. С помощью скрипта были выбраны 100 случайных генов человека, из которых вырезался фрагмент 7 bp до + стартовый ATG + 3 bp после. Полученные наборы можно посмотреть по ссылкам: kozak-learn.fasta (n = 40), kozak-test.fasta (n = 60). По выравниваниям без гэпов из тестовой выборки была построена PWM, при этом известно, что GC-состав = 41%:
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -2,291 | -0,369 | -0,649 | 0,107 | -0,824 | -0,499 | -0,824 | 1,221 | -4,083 | -4,083 | -0,369 | -0,499 | -1,310 |
T | 0,372 | -0,499 | -1,310 | -0,369 | -1,310 | -0,824 | -1,685 | -4,083 | 1,221 | -4,083 | -1,038 | -1,038 | -0,824 |
G | 0,307 | 0,307 | 0,736 | 0,110 | 0,846 | 0,544 | 0,110 | -3,719 | -3,719 | 1,585 | 0,991 | 0,392 | 0,945 |
C | 0,307 | 0,544 | 0,544 | 0,213 | 0,471 | 0,544 | 1,077 | -3,719 | -3,719 | -3,719 | -0,285 | 0,736 | 0,307 |
Для положительного контроля были взяты последовательности из тестового файла, для отрицательного - были выбраны 60 последовательностей, содержащие не стартовые ATG (+)-контроль. С помощью того же скрипта были посчитаны mean score и p-value: positive control mean score: 5.242721611434907 negative control mean score: 1.4592655243455037 p-value: 2.6525853548844836e-12 ic:9.784051189548972 Видно, что negative control mean score значительно меньше, чем positive и p-value маленькое. Можно сделать вывод о том, что последовательности разные, а значит Козак - специфичен для стартового кодона.
Следующей задачей стало вычисление информационного содержания последовательности Козак. Для этого строилась матрица информационного содержания:
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.099 | -0.108 | -0.144 | 0.053 | -0.154 | -0.138 | -0.154 | 1.777 | 0 | 0 | -0.108 | -0.128 | -0.151 |
T | 0.234 | -0.128 | -0.151 | -0.108 | -0.151 | -0.154 | -0.133 | 0 | 1.777 | 0 | -0.156 | -0.156 | -0.154 |
G | 0.126 | 0.126 | 0.460 | 0.038 | 0.589 | 0.281 | 0.038 | 0 | 0 | 2.305 | 0.797 | 0.175 | 0.726 |
C | 0.126 | 0.281 | 0.281 | 0.080 | 0.227 | 0.281 | 0.945 | 0 | 0 | 0 | -0.063 | 0.460 | 0.126 |
С программой WebLOGO3 было визуализировано ИС последовательности. Из схемы видно, что последовательность длиной 7 нуклеотидов до ATG и 3 нуклеотида после имеет значимый информационный вес.