Практикум 6

HIV-1 RNA packaging signal

Как и другие ретровирусы, вирус иммунодефицита человека типа 1 (ВИЧ-1) избирательно упаковывает геномную РНК во время сборки вируса. Успешная репликация ретровируса требует, чтобы его геномная РНК была упакована в собирающиеся вирусные частицы с высокой точностью. Однако клеточные мРНК также могут быть упакованы при определенных условиях. Вирусная РНК (вРНК) содержит "сигнал упаковки" (ψ) и упаковывается в виде димера - двух мономеров вРНК, соединенных ограниченным числом пар оснований. Она имеет два конформера, только один из которых способен к димеризации и упаковке. Полипротеин Gag - один из основных участников этого процесса. Он способен узнавать особый сигнал на вирусной РНК (ψ, RNA packaking signal) и связывать нуклеиновую кислоту (nucleocapsid) и переносить ее к месту образования новой вирусной частицы.

Информация о сигнале

У каких вирусов встречается: HIV, SIV (Вирус иммунодефицита обезьян)

Кому адресован: белок Gag

Предназначение: Белок Gag связывает вирусную РНК для включения ее в новую вирусную частицу

Эффективность сигнала: Высокоэффективный сигнал

Для выполнения задания использовался скрипт, основанный на коде Муравьёва Георгия. В результате получено 500 последовательностей для обучения, 500 последовательностей для тестирования и 500 последовательностей - отрицательный контроль.

Также в результате работы скрипта на основе материала обучения была построена позиционная весовая матрица (PWM). Матрица представлена в таблице 1.

Таблица 1. Матрица PWM для последовательности Козак человека.

На Рис.1 изображена гистограмма весов последовательностей. Стоит отметить, что значения весов для отрицательного контроля находятся левее, чем для последовательностей обучения и положительного контроля.

Пороговое значение, отделяющее отрицательный контроль - 37

Рис. 1. Гистограмма весов.
Таблица 2. Таблица результатов проверки. При выбранном пороговом значении большая часть последовательностей обучения и положительного контроля попали в группу Сигнал(+), а отрицательного контроля - в Сигнал(-)
Таблица 3. Матрица информационного содержания на основе материала обучения.
Рис. 2 Визуализация информационного содержания последовательности.В пятом положении много GA нуклеотидов, а в положениях 8-10 - хорошо представлен старт-кодон ATG.

Подсчет числа сайтов GAATTC в полном геноме E.coli

Был выбран штамм Escherichia coli O157:H7 str. Sakai, чей геном указан как референсный.

Число сайтов = 801

Ожидаемое число сайтов = 1245

Расчет проводился с использованием формул для биномиального распределения. Различие сможно считать достоверным из-за достатчно маленького p-value

Используемая литература

1. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3225976/

3. https://www.pnas.org/doi/10.1073/pnas.2013378117

5. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC190715/