Практикум 6.

Задание 1.

Сигнал рибосомного сдвига рамки считывания HIV-1

Сигнал рибосомного сдвига рамки считывания HIV-1 - сигнал, закодированный в геноме HIV-1, состоящий из двух элементов: семинуклеотидной последовательности и особой вторичной структуры РНК. Семинуклеотидная последовательность имеет вид: N NNW WWH, где NNW и WWH - кодоны до сдвига, а NNN WWW - кодоны после него. Сдвиг рамки считывания позволяет рибосоме вместо короткого полипротеина Gag, синтезировать длинный полипротеин Gag-pol.[1] При этом отношение Gag к Gag-pol оценивается как 20:1.[2] Из этого следует, что сигнал низко эффективен.

Список литературы

1.Wang X, Xuan Y, Han Y, Ding X, Ye K, Yang F, Gao P, Goff SP, Gao G. Regulation of HIV-1 Gag-Pol Expression by Shiftless, an Inhibitor of Programmed -1 Ribosomal Frameshifting. Cell. 2019 Jan 24;176(3):625-635.e14. doi: 10.1016/j.cell.2018.12.030. PMID: 30682371; PMCID: PMC8486322.
2.Shehu-Xhilaga M, Crowe SM, Mak J. Maintenance of the Gag/Gag-Pol ratio is important for human immunodeficiency virus type 1 RNA dimerization and viral infectivity. J Virol. 2001 Feb;75(4):1834-41. doi: 10.1128/JVI.75.4.1834-1841.2001. PMID: 11160682; PMCID: PMC114093.

.

Задание 2

Построение PWM

В качестве сигнала для описания была выбрана последовательность Козак в геноме человека. Для выполнения задания был использован скрипт Георгия Муравьева.
Ниже приведен список файлов, которые генерируются в результате работы скрипта:

  1. kozak-learn.fasta - файл с последовательностями для обучения
  2. kozak-test.fasta - файл с последовательностями для тестирования
  3. pseudokozak1.fasta - файл с последовательностями для негативного контроля
  4. result.csv - позиционная весовая матрица с псевдоттсчетами (PWM), построенная на материале обучения.
  5. ic.csv - матрица информационного содержания IC(b,j) для выравнивания из материала обучения
  6. hist.svg - изображение гистограммы весов в формате SVG
  7. hist.png - изображение гистограммы весов в формате PNG
  8. check.csv - таблица результатов проверки.

Скрипт сгенерировал 1500 последовательностей, из которых 500 для обучения, 500 для тестов и 500 для отрицательного контроля. С помощью материала обучения была создана таблица с псевдоттсчетами (Табл.1), на основе которой были рассчитаны веса и построена гистограмма весов(Рис.1). Был установлен порог веса на 37, чтобы определить правильные находки. Результаты проверки были внесены в Табл.2.

Таб.1 Позиционная весовая матрица.
letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A 2.14 2.21 2.17 2.10 2.89 2.55 2.27 3.74 -4.08 -4.08 2.28 2.53 1.78
T 2.30 2.16 2.29 1.83 1.25 1.76 1.06 -4.08 3.74 -4.08 1.82 1.83 2.36
G 2.77 3.09 2.83 2.86 3.14 2.50 2.84 -3.72 -3.72 4.11 3.41 2.50 3.14
C 2.90 2.57 2.83 3.12 1.88 3.08 3.24 -3.72 -3.72 -3.72 2.01 3.07 2.63
Рис.1Гистограмма распределения весов последовательностей.
Таб.2 Результаты проверки находок при пороге веса 37.
Обучение Положительный контроль Отрицательный контроль
Сигнал(+) 366 (73.2%) 342 (68.4%) 132 (26.4%)
Сигнал(-) 134 (26.8%) 158 (31.6%) 368 (73.6%)

Задание 3

Вычисление информационного содержания и построение LOGO

C помощью скрипта такжеь была получена матрица информационного содержания(Табл.3) и с использованием сервиса WebLOGO 3 построено LOGO(Рис.2). В результате было обнаружено, что в положении 5 преобладали пуриновые нуклеотиды, а в положениях 8-10 был обнаружен стартовый кодон ATG.

Таб.3 Матрица информационного содержания.
letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A 7.82 8.62 8.16 7.37 22.37 13.88 9.44 67.56 0.00 0.00 9.56 13.63 4.49
T 9.80 8.05 9.68 4.90 1.84 4.39 1.30 0.00 67.56 0.00 4.80 4.90 10.64
G 13.09 20.20 14.19 14.74 21.69 9.02 14.47 0.00 0.00 74.13 30.81 9.02 21.69
C 15.72 10.04 14.33 20.94 3.67 20.05 24.56 0.00 0.00 0.00 4.42 19.61 10.82
IC(j) 46.44 46.92 46.36 47.96 49.57 47.35 49.77 67.56 67.56 74.13 49.59 47.16 47.65
Рис.2LOGO для последовательности Козак в геноме человека.

Задание 4

Сайты GAATTC в геноме E.coli

Для исследования использовался штамм Escherichia coli str. K-12 substr. MG1655. Был применен скрипт Георгия Муравьева(Автор этого практикума выражает свою благодарность этому прекрасному человеку). В результате было обнаружено 646 сайтов GAATTC в геноме. Однако при ожидаемом количестве таких сайтов, равном 1097, это различие статистически значимо с уровнем значимости p-value, составившим 1.77⋅10^-49.