The story of the HIV RNA packaging signal

Известно, что вирусная частица представляет собой капсид, содержащий ДНК или РНК. Чтобы обеспечить правильную передачу наследственной информации следующему поколению вирусных частиц, вирусу необходимо осуществлять очень точную упаковку нуклеиновых кислот в оболочку. Полипротеин Gag - один из важнейших участников процесса селективной сборки генома будущей вирусной частицы (рис. 1). Он узнает особый сигнал на вирусной РНК - ψ, связывает нуклеиновую кислоту NC (nucleocapsid) доменом и переносит к месту образования новой вирусной частицы.

Picture 1. DNA packaging process

Psi сигнал ВИЧ-1 образует 4 шпильки: SL1, SL2, SL3 и SL4 (рис. 2), среди которых набиолее важна SL1 (рис. 3), содержащая DIS (the dimerization initiation site).

Picture 2. Ψ RNA packaging signal
Picture 3. Предсказанная вторичная структура HIV-1_DIS

Stem loop 1 (SL1) включает в себя шпильку с 6-мерной палиндромной последовательностью в одноцепочечном петлевом домене.

Table 1. Информация о выбранном сигнале
Название сигнала 1)core encapsidation signal 2) packaging signal 3) ψ
У каких вирусов? HIV и SIV
Состав Примерно 80–150 нуклеотидов, на 5' конце генома (см рис. 1)
Кому адресован? Белку Gag
как должен реагировать адресат? Белок Gag связывает вирусную РНК для включения ее в новую образующуюся вирусную частицу
Эффективность сигнала? Высокоэффективный сигнал

The Kozak consensus sequence

Для анализа последовательности Козак человека были выбраны и скачаны 75 генов из 1 хромосомы человека (GC состав 42%). Далее данная выборка была разделена на учебную и тестовую выборки размером 30 генов и 45 генов соотвественно. Из каждого гена были вырезаны учатки длиной 13 нуклеотидов (7 нуклеотидов до стартового кодона ATG, непосредственно ATG и 3 нуклеотида после него). На основе меньшей выборки были построены матрицы PWM и IC (табл 2).

Table 2. PMW-матрица
nt 1 2 3 4 5 6 7 8 9 10 11 12 13 expected frequency
A -2,071 -0,358 -1,035 -0,537 -0,075 -0,537 -0,537 1,238 -4,469 -4,469 -0,537 -0,207 -1,425 0,29
T -0,537 -0,537 -1,035 -1,425 -4,469 -0,756 -1,035 -4,469 1,238 -4,469 -0,537 -0,358 -0,207 0,29
G 0,649 0,364 0,563 0,563 0,871 0,116 -0,215 -4,146 -4,146 1,561 0,649 0,248 0,729 0,21
C 0,649 0,469 0,729 0,649 0,116 0,802 0,995 -4,146 -4,146 -4,146 0,248 0,364 0,248 0,21

Затем с помощью PWM были проанализированы две выборки одного размера: описанные выше последовательности Козак, полученные из 45 генов (+ контроль), и последовательности, вырезанные из генов человека и содержащие кодоны ATG, но не являющиеся последовательности Козак (-контроль). Результат анализа представлен на рисунке 4 ниже:

Picture 4. Распределение весов последовательностей из генома человека

Из диаграммы видно, что распределения веса у отрицательного контроля сильно смещено вниз по сравнению с положительным контролем, что и следовало ожидать.

LOGO

Picture 5. Визуализация информационного содержания последовательности

Из полученной диаграммы можно сделать вывод о том, что последовательность Козак у человека содержит большое количество GC нуклеотидов.

Ссылки

1. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3225976/

2. https://en.wikipedia.org/wiki/Retroviral_psi_packaging_element

3. https://www.pnas.org/doi/10.1073/pnas.2013378117

4. https://www.frontiersin.org/articles/10.3389/fmicb.2012.00055/full

5. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC190715/