Известно, что вирусная частица представляет собой капсид, содержащий ДНК или РНК. Чтобы обеспечить правильную передачу наследственной информации следующему поколению вирусных частиц, вирусу необходимо осуществлять очень точную упаковку нуклеиновых кислот в оболочку. Полипротеин Gag - один из важнейших участников процесса селективной сборки генома будущей вирусной частицы (рис. 1). Он узнает особый сигнал на вирусной РНК - ψ, связывает нуклеиновую кислоту NC (nucleocapsid) доменом и переносит к месту образования новой вирусной частицы.
Psi сигнал ВИЧ-1 образует 4 шпильки: SL1, SL2, SL3 и SL4 (рис. 2), среди которых набиолее важна SL1 (рис. 3), содержащая DIS (the dimerization initiation site).
![]() |
Stem loop 1 (SL1) включает в себя шпильку с 6-мерной палиндромной последовательностью в одноцепочечном петлевом домене. |
Название сигнала | 1)core encapsidation signal 2) packaging signal 3) ψ |
У каких вирусов? | HIV и SIV |
Состав | Примерно 80–150 нуклеотидов, на 5' конце генома (см рис. 1) |
Кому адресован? | Белку Gag |
как должен реагировать адресат? | Белок Gag связывает вирусную РНК для включения ее в новую образующуюся вирусную частицу |
Эффективность сигнала? | Высокоэффективный сигнал |
Для анализа последовательности Козак человека были выбраны и скачаны 75 генов из 1 хромосомы человека (GC состав 42%). Далее данная выборка была разделена на учебную и тестовую выборки размером 30 генов и 45 генов соотвественно. Из каждого гена были вырезаны учатки длиной 13 нуклеотидов (7 нуклеотидов до стартового кодона ATG, непосредственно ATG и 3 нуклеотида после него). На основе меньшей выборки были построены матрицы PWM и IC (табл 2).
nt | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | expected frequency |
A | -2,071 | -0,358 | -1,035 | -0,537 | -0,075 | -0,537 | -0,537 | 1,238 | -4,469 | -4,469 | -0,537 | -0,207 | -1,425 | 0,29 |
T | -0,537 | -0,537 | -1,035 | -1,425 | -4,469 | -0,756 | -1,035 | -4,469 | 1,238 | -4,469 | -0,537 | -0,358 | -0,207 | 0,29 |
G | 0,649 | 0,364 | 0,563 | 0,563 | 0,871 | 0,116 | -0,215 | -4,146 | -4,146 | 1,561 | 0,649 | 0,248 | 0,729 | 0,21 |
C | 0,649 | 0,469 | 0,729 | 0,649 | 0,116 | 0,802 | 0,995 | -4,146 | -4,146 | -4,146 | 0,248 | 0,364 | 0,248 | 0,21 |
Затем с помощью PWM были проанализированы две выборки одного размера: описанные выше последовательности Козак, полученные из 45 генов (+ контроль), и последовательности, вырезанные из генов человека и содержащие кодоны ATG, но не являющиеся последовательности Козак (-контроль). Результат анализа представлен на рисунке 4 ниже:
![]() |
Из диаграммы видно, что распределения веса у отрицательного контроля сильно смещено вниз по сравнению с положительным контролем, что и следовало ожидать.
Из полученной диаграммы можно сделать вывод о том, что последовательность Козак у человека содержит большое количество GC нуклеотидов.
1. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3225976/
2. https://en.wikipedia.org/wiki/Retroviral_psi_packaging_element
3. https://www.pnas.org/doi/10.1073/pnas.2013378117
4. https://www.frontiersin.org/articles/10.3389/fmicb.2012.00055/full