Практикум 6.

Задание 1.

В митохондриях терминация транскрипции при синтезе праймеров для репликации ДНК происходит за счет образования G-квадруплекса на РНК.

Этот “структурный” сигнал адресован TEFM - фактору элонгации транскрипции и митохондриальной РНК-полимеразе. При связывании TEFM с квадруплексной областью, происходит синтез мРНК, иначе - синтез праймера для репликации ДНК. Также этот структура не дает mtRNAP продолжить синтез РНК[1].

Эффективность сигнала достаточно высока, но стоит отметить, что при мутациях в этом регионе возникает дестабилизация квадруплекса, а как следствие нарушается регуляция терминации транскрипции и синтеза РНК-праймеров [2].

Рис. 1. Механизм терминации и элонгации транскрипции связанный с взаимодействием TEFM с квадруплексной структурой.

Задание 2.

Все использованные скрипты, которые упоминаются ниже, скомпанованы в один колаб

С помощью скрипта[1] Кирилла Кузенкова, были отобран тренировочный материал для построения матрицы, тестовый и материал для негативного контроля основанный на геноме Sars-CoV-2.

С помощью скрипта[2] была построена PWM-матрица на основе обучающего материала, который представлял из себя множество последовательностей вида “7 нуклеотидов до ATG + ATG + 3 нуклеотида после ATG” и подсчитаны веса последовательностей.

Рис.2. PWM-матрица .

Исходя из рис.3, вес последовательностей тренировочного и тестового материала значительно выше, чем вес последовательностей отрицательного контроля.

Рис.3. Веса последовательностей .

Также были посчитаны веса последовательностей по полученной PWM матрице (скрипт 3). Результат проверки с порогом на значение веса равному 4 и выше (максимальный полученный score - 7.9, порог = 4 выбран как половина от максимального score) показал, что положительный сигнал обнаруживается чаще в тренировочных и тестовых выборках, в то время как отрицательный сигнал значительно выше в выборке негативного контроля.

Таб.1. Количество последовательностей имеющих положительные и отрицательные сигналы в разных выборках .

Задание 3.

На основе “обучающего” материала была построена IC (скрипт[4]).

Рис.4. IC-содержание. Количество последовательностей имеющих положительные и отрицательные сигналы в разных выборках .

С помощью сервиса WebLogo был построен LOGO последовательностей тренировочного материала.

Рис.5. LOGO последовательностей тренировочной выборки.

Задание 4.

Для подсчета числа сайтов GAATTC в полном геноме штамма 148 E.coli был использован скрипт[5] Кирилла Кузенкова.

GC содержание генома выбранного штамма - 0.5046.

Реальное количество GAATTC в геноме - 780

Ожидаемое - 1299

Разность между ожидаемым и наблюдаемым количеством GAATTC сайтов в геноме выбранного штамма равна 519.

Исходя из проведенного z-теста (скрипт[6]) , в котором за Ho принималось "количество GAATTC равно ожидаемому количеству" p-value =1.56*10^(-54) << 0.05, а значит разница между ожидаемым и реальным количеством GAATTC статистически значима

Источники:

1.Hillen, H. S., Parshin, A. V., Agaronyan, K., Morozov, Y. I., Graber, J. J., Chernev, A., Schwinghammer, K., Urlaub, H., Anikin, M., Cramer, P., & Temiakov, D. (2017). Mechanism of Transcription Anti-termination in Human Mitochondria. Cell, 171(5), 1082–1093.e13. https://doi.org/10.1016/j.cell.2017.09.035

2. Agaronyan, K., Morozov, Y. I., Anikin, M., & Temiakov, D. (2015). Mitochondrial biology. Replication-transcription switch in human mitochondria. Science (New York, N.Y.), 347(6221), 548–551. https://doi.org/10.1126/science.aaa0986

3. Л.А. Зиновкина. Курс молекулярной биологии митохондрий.