G-квадруплексы (или G-квартеты) - это структуры, которые образуются из гуаниновых оснований в молекулах ДНК и РНК. Эти структуры представляют собой квадратную или прямоугольную плоскость, образованную четырьмя гуаниновыми основаниями, связанными друг с другом взаимодействиями через их азотистые основания. G-квадруплексы могут образовываться в локальных участках ДНК или РНК, где есть большое количество гуаниновых оснований, таких как теломеры, выделенные участки внутри генов, промоторы, транскрипционные факторы и центромеры. G-квадруплексы могут играть роль в регуляции генной экспрессии, так как они могут служить сигналами для различных белковых комплексов и факторов, которые регулируют процессы транскрипции и трансляции. Некоторые исследования показывают, что G-квадруплексы могут влиять на скорость транскрипции генов, а также на уровень экспрессии определенных генов. Например, в некоторых генах G-квадруплексы обнаружены в промоторных регионах, что может влиять на связывание транскрипционных факторов с ДНК и тем самым регулировать экспрессию гена. Также известно, что G-квадруплексы могут влиять на процесс альтернативного сплайсинга РНК, что может приводить к образованию различных изоформ белков.
Минимальная последовательность, необходимая для формирования G-квадруплекса: NGGGNGGGNGGGNGGGN, где N - один или несколько неклеотидов. Сигнал адресован различным транскрипционным факторам и другим белковым молекулам и комплексам, участвуя в их взаимодействии с ДНК и РНК. Эффективность сигнала сильно зависит от клеточных условий и низкомолекулярных лигандов, взаимодействующих с квадруплексом. Так, одновалентные и двухвалентные ионы металлов, а также лиганды с ароматической р-системой стабилизируют квадруплексы, снижая уровень экспрессии, если данный квадруплекс находится в промоторе. Таким образом, G-квадруплексы представляют собой важный сигнал в ДНК и РНК, который может влиять на множество биологических процессов, связанных с экспрессией генов[1].
Рис.1. G-тетрада и ион металла, ее стабилизирующий.
Рис.2. Принципиальные схемы внутримолекулярных (слева) и межмолекулярных (справа) G-квадруплексных (G4) структур ДНК.
Последовательность Козак – это крестность ATG кодона, являющаяся сигналом старта транскрипции. Для выполнения задания использовался скрипт Георгия Муравьева. Он принимает на вход файл human-genes.tsv, содержащий таблицу со списком генов человека и их положением в геноме. В результате работы скрипта получаются файлы: kozak-learn.fasta (файл с последовательностями для обучения), kozak-test.fasta (с последовательностями для тестирования) и pseudokozak1.fasta (с последовательностями для негативного контроля), result.csv (позиционная весовая матрица с псевдоотсчетами (PWM), построенная на материале обучения), ic.csv (матрица информационного содержания IC(b,j) для выравнивания из материала обучения), hist.svg и hist.png (изображения гистограммы весов), check.csv (таблица результатов проверки).
Была получена позиционная весовая матрица с псевдоотсчетами.
Таблица 1. Позиционная весовая матрица.
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | 2.14 | 2.26 | 2.21 | 2.39 | 2.95 | 2.57 | 2.06 | 3.74 | -4.08 | -4.08 | 2.27 | 2.53 | 2.00 |
T | 2.32 | 1.97 | 2.13 | 1.75 | 1.25 | 1.79 | 1.06 | -4.08 | 3.74 | -4.08 | 1.94 | 1.92 | 2.32 |
G | 2.72 | 3.16 | 2.92 | 2.81 | 3.00 | 2.50 | 2.88 | -3.72 | -3.72 | 4.11 | 3.29 | 2.31 | 3.01 |
C | 2.93 | 2.57 | 2.83 | 3.01 | 2.10 | 3.06 | 3.31 | -3.72 | -3.72 | -3.72 | 2.29 | 3.13 | 2.73 |
На основе данной таблицы были посчитаны веса всех последовательностей и построена гисторгамма распределения. Порог веса, выше которой находка может считаться правильной составил 37, в итоге была составлена таблица результатов проверики.
Рис.3. Гистограмма распределения весов последовательностей.
Обучение | Положительный контроль | Отрицательный контроль | |
---|---|---|---|
Cигнал(+) | 364 (72.8%) | 356 (71.2%) | 130 (26.0%) |
Cигнал(-) | 136 (27.2%) | 144 (28.8%) | 370 (74.0%) |
Была получена матрица информационного содержания и построено LOGO сервисом WebLOGO 3.
Таблица 3. Матрица информационного содержания.
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | 7.82 | 9.33 | 8.62 | 11.13 | 24.21 | 14.27 | 6.92 | 67.56 | 0.00 | 0.00 | 9.44 | 13.50 | 6.27 |
T | 10.04 | 6.05 | 7.71 | 4.30 | 1.84 | 4.60 | 1.30 | 0.00 | 67.56 | 0.00 | 5.73 | 5.63 | 10.04 |
G | 12.28 | 22.14 | 16.01 | 13.78 | 17.86 | 9.02 | 15.30 | 0.00 | 0.00 | 74.13 | 26.41 | 6.93 | 18.15 |
C | 16.29 | 9.91 | 14.33 | 18.15 | 5.08 | 19.32 | 27.03 | 0.00 | 0.00 | 0.00 | 6.69 | 21.24 | 12.42 |
IC(j) | 46.43 | 47.43 | 46.67 | 47.35 | 48.99 | 47.20 | 50.56 | 67.56 | 67.56 | 74.13 | 48.28 | 47.30 | 46.88 |
Рис.4. LOGO для последовательности Козак в геноме человека.
Был использован геном штама Escherichia coli str. K-12 substr. MG1655.
В результате было найдено 646 сайтов GAATTC в геноме, но ожидаемое число таких сайтов в геноме равно 1097. Такое различие статистически значимо, так как p-value=1.770*10^(-49) при биномиальном распределении.
1. Bochman, M. L., Paeschke, K., & Zakian, V. A. (2012). DNA secondary structures: stability and function of G-quadruplex structures. Nature reviews. Genetics, 13(11), 770–780. https://doi.org/10.1038/nrg3296