В митохондриях терминация транскрипции при синтезе праймеров для репликации ДНК происходит за счет образования G-квадруплекса на РНК.
Этот “структурный” сигнал адресован TEFM - фактору элонгации транскрипции и митохондриальной РНК-полимеразе. При связывании TEFM с квадруплексной областью, происходит синтез мРНК, иначе - синтез праймера для репликации ДНК. Также этот структура не дает mtRNAP продолжить синтез РНК[1].
Эффективность сигнала достаточно высока, но стоит отметить, что при мутациях в этом регионе возникает дестабилизация квадруплекса, а как следствие нарушается регуляция терминации транскрипции и синтеза РНК-праймеров [2].
Все использованные скрипты, которые упоминаются ниже, скомпанованы в один колаб
С помощью скрипта[1] Кирилла Кузенкова, были отобран тренировочный материал для построения матрицы, тестовый и материал для негативного контроля основанный на геноме Sars-CoV-2.
С помощью скрипта[2] была построена PWM-матрица на основе обучающего материала, который представлял из себя множество последовательностей вида “7 нуклеотидов до ATG + ATG + 3 нуклеотида после ATG” и подсчитаны веса последовательностей.
Исходя из рис.3, вес последовательностей тренировочного и тестового материала значительно выше, чем вес последовательностей отрицательного контроля.
Также были посчитаны веса последовательностей по полученной PWM матрице (скрипт 3). Результат проверки с порогом на значение веса равному 4 и выше (максимальный полученный score - 7.9, порог = 4 выбран как половина от максимального score) показал, что положительный сигнал обнаруживается чаще в тренировочных и тестовых выборках, в то время как отрицательный сигнал значительно выше в выборке негативного контроля.
На основе “обучающего” материала была построена IC (скрипт[4]).
С помощью сервиса WebLogo был построен LOGO последовательностей тренировочного материала.
Для подсчета числа сайтов GAATTC в полном геноме штамма 148 E.coli был использован скрипт[5] Кирилла Кузенкова.
GC содержание генома выбранного штамма - 0.5046.
Реальное количество GAATTC в геноме - 780
Ожидаемое - 1299
Разность между ожидаемым и наблюдаемым количеством GAATTC сайтов в геноме выбранного штамма равна 519.
Исходя из проведенного z-теста (скрипт[6]) , в котором за Ho принималось "количество GAATTC равно ожидаемому количеству" p-value =1.56*10^(-54) << 0.05, а значит разница между ожидаемым и реальным количеством GAATTC статистически значима
1.Hillen, H. S., Parshin, A. V., Agaronyan, K., Morozov, Y. I., Graber, J. J., Chernev, A., Schwinghammer, K., Urlaub, H., Anikin, M., Cramer, P., & Temiakov, D. (2017). Mechanism of Transcription Anti-termination in Human Mitochondria. Cell, 171(5), 1082–1093.e13. https://doi.org/10.1016/j.cell.2017.09.035
2. Agaronyan, K., Morozov, Y. I., Anikin, M., & Temiakov, D. (2015). Mitochondrial biology. Replication-transcription switch in human mitochondria. Science (New York, N.Y.), 347(6221), 548–551. https://doi.org/10.1126/science.aaa0986
3. Л.А. Зиновкина. Курс молекулярной биологии митохондрий.