Практикум 6.
Сигнал рибосомного сдвига рамки считывания HIV-1 - сигнал, закодированный в геноме HIV-1, состоящий из двух элементов: семинуклеотидной последовательности и особой вторичной структуры РНК. Семинуклеотидная последовательность имеет вид: N NNW WWH, где NNW и WWH - кодоны до сдвига, а NNN WWW - кодоны после него. Сдвиг рамки считывания позволяет рибосоме вместо короткого полипротеина Gag, синтезировать длинный полипротеин Gag-pol.[1] При этом отношение Gag к Gag-pol оценивается как 20:1.[2] Из этого следует, что сигнал низко эффективен.
1.Wang X, Xuan Y, Han Y, Ding X, Ye K, Yang F, Gao P, Goff SP, Gao G. Regulation of HIV-1 Gag-Pol Expression by Shiftless, an Inhibitor of Programmed -1 Ribosomal Frameshifting. Cell. 2019 Jan 24;176(3):625-635.e14. doi: 10.1016/j.cell.2018.12.030. PMID: 30682371; PMCID: PMC8486322.
2.Shehu-Xhilaga M, Crowe SM, Mak J. Maintenance of the Gag/Gag-Pol ratio is important for human immunodeficiency virus type 1 RNA dimerization and viral infectivity. J Virol. 2001 Feb;75(4):1834-41. doi: 10.1128/JVI.75.4.1834-1841.2001. PMID: 11160682; PMCID: PMC114093.
В качестве сигнала для описания была выбрана последовательность Козак в геноме человека. Для выполнения задания был использован скрипт Георгия Муравьева.
Ниже приведен список файлов, которые генерируются в результате работы скрипта:
Скрипт сгенерировал 1500 последовательностей, из которых 500 для обучения, 500 для тестов и 500 для отрицательного контроля. С помощью материала обучения была создана таблица с псевдоттсчетами (Табл.1), на основе которой были рассчитаны веса и построена гистограмма весов(Рис.1). Был установлен порог веса на 37, чтобы определить правильные находки. Результаты проверки были внесены в Табл.2.
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | 2.14 | 2.21 | 2.17 | 2.10 | 2.89 | 2.55 | 2.27 | 3.74 | -4.08 | -4.08 | 2.28 | 2.53 | 1.78 |
T | 2.30 | 2.16 | 2.29 | 1.83 | 1.25 | 1.76 | 1.06 | -4.08 | 3.74 | -4.08 | 1.82 | 1.83 | 2.36 |
G | 2.77 | 3.09 | 2.83 | 2.86 | 3.14 | 2.50 | 2.84 | -3.72 | -3.72 | 4.11 | 3.41 | 2.50 | 3.14 |
C | 2.90 | 2.57 | 2.83 | 3.12 | 1.88 | 3.08 | 3.24 | -3.72 | -3.72 | -3.72 | 2.01 | 3.07 | 2.63 |
Обучение | Положительный контроль | Отрицательный контроль | |
Сигнал(+) | 366 (73.2%) | 342 (68.4%) | 132 (26.4%) |
Сигнал(-) | 134 (26.8%) | 158 (31.6%) | 368 (73.6%) |
C помощью скрипта такжеь была получена матрица информационного содержания(Табл.3) и с использованием сервиса WebLOGO 3 построено LOGO(Рис.2). В результате было обнаружено, что в положении 5 преобладали пуриновые нуклеотиды, а в положениях 8-10 был обнаружен стартовый кодон ATG.
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | 7.82 | 8.62 | 8.16 | 7.37 | 22.37 | 13.88 | 9.44 | 67.56 | 0.00 | 0.00 | 9.56 | 13.63 | 4.49 |
T | 9.80 | 8.05 | 9.68 | 4.90 | 1.84 | 4.39 | 1.30 | 0.00 | 67.56 | 0.00 | 4.80 | 4.90 | 10.64 |
G | 13.09 | 20.20 | 14.19 | 14.74 | 21.69 | 9.02 | 14.47 | 0.00 | 0.00 | 74.13 | 30.81 | 9.02 | 21.69 |
C | 15.72 | 10.04 | 14.33 | 20.94 | 3.67 | 20.05 | 24.56 | 0.00 | 0.00 | 0.00 | 4.42 | 19.61 | 10.82 |
IC(j) | 46.44 | 46.92 | 46.36 | 47.96 | 49.57 | 47.35 | 49.77 | 67.56 | 67.56 | 74.13 | 49.59 | 47.16 | 47.65 |
Для исследования использовался штамм Escherichia coli str. K-12 substr. MG1655. Был применен скрипт Георгия Муравьева(Автор этого практикума выражает свою благодарность этому прекрасному человеку). В результате было обнаружено 646 сайтов GAATTC в геноме. Однако при ожидаемом количестве таких сайтов, равном 1097, это различие статистически значимо с уровнем значимости p-value, составившим 1.77⋅10^-49.