Практикум 6. Сигналы и мотивы

Задание 1. Описание G-квадруплексного сигнала

G-квадруплексы (или G-квартеты) - это структуры, которые образуются из гуаниновых оснований в молекулах ДНК и РНК. Эти структуры представляют собой квадратную или прямоугольную плоскость, образованную четырьмя гуаниновыми основаниями, связанными друг с другом взаимодействиями через их азотистые основания. G-квадруплексы могут образовываться в локальных участках ДНК или РНК, где есть большое количество гуаниновых оснований, таких как теломеры, выделенные участки внутри генов, промоторы, транскрипционные факторы и центромеры. G-квадруплексы могут играть роль в регуляции генной экспрессии, так как они могут служить сигналами для различных белковых комплексов и факторов, которые регулируют процессы транскрипции и трансляции. Некоторые исследования показывают, что G-квадруплексы могут влиять на скорость транскрипции генов, а также на уровень экспрессии определенных генов. Например, в некоторых генах G-квадруплексы обнаружены в промоторных регионах, что может влиять на связывание транскрипционных факторов с ДНК и тем самым регулировать экспрессию гена. Также известно, что G-квадруплексы могут влиять на процесс альтернативного сплайсинга РНК, что может приводить к образованию различных изоформ белков.

Минимальная последовательность, необходимая для формирования G-квадруплекса: NGGGNGGGNGGGNGGGN, где N - один или несколько неклеотидов. Сигнал адресован различным транскрипционным факторам и другим белковым молекулам и комплексам, участвуя в их взаимодействии с ДНК и РНК. Эффективность сигнала сильно зависит от клеточных условий и низкомолекулярных лигандов, взаимодействующих с квадруплексом. Так, одновалентные и двухвалентные ионы металлов, а также лиганды с ароматической р-системой стабилизируют квадруплексы, снижая уровень экспрессии, если данный квадруплекс находится в промоторе. Таким образом, G-квадруплексы представляют собой важный сигнал в ДНК и РНК, который может влиять на множество биологических процессов, связанных с экспрессией генов[1].

Рис.1. G-тетрада и ион металла, ее стабилизирующий.

Рис.2. Принципиальные схемы внутримолекулярных (слева) и межмолекулярных (справа) G-квадруплексных (G4) структур ДНК.

Задание 2. Последовательность Козак в геноме человека

Последовательность Козак – это крестность ATG кодона, являющаяся сигналом старта транскрипции. Для выполнения задания использовался скрипт Георгия Муравьева. Он принимает на вход файл human-genes.tsv, содержащий таблицу со списком генов человека и их положением в геноме. В результате работы скрипта получаются файлы: kozak-learn.fasta (файл с последовательностями для обучения), kozak-test.fasta (с последовательностями для тестирования) и pseudokozak1.fasta (с последовательностями для негативного контроля), result.csv (позиционная весовая матрица с псевдоотсчетами (PWM), построенная на материале обучения), ic.csv (матрица информационного содержания IC(b,j) для выравнивания из материала обучения), hist.svg и hist.png (изображения гистограммы весов), check.csv (таблица результатов проверки).

Была получена позиционная весовая матрица с псевдоотсчетами.

Таблица 1. Позиционная весовая матрица.

letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A 2.14 2.26 2.21 2.39 2.95 2.57 2.06 3.74 -4.08 -4.08 2.27 2.53 2.00
T 2.32 1.97 2.13 1.75 1.25 1.79 1.06 -4.08 3.74 -4.08 1.94 1.92 2.32
G 2.72 3.16 2.92 2.81 3.00 2.50 2.88 -3.72 -3.72 4.11 3.29 2.31 3.01
C 2.93 2.57 2.83 3.01 2.10 3.06 3.31 -3.72 -3.72 -3.72 2.29 3.13 2.73

На основе данной таблицы были посчитаны веса всех последовательностей и построена гисторгамма распределения. Порог веса, выше которой находка может считаться правильной составил 37, в итоге была составлена таблица результатов проверики.

Рис.3. Гистограмма распределения весов последовательностей.

Таблица 2. Результаты проверки находок при пороге веса 37.

Обучение Положительный контроль Отрицательный контроль
Cигнал(+) 364 (72.8%) 356 (71.2%) 130 (26.0%)
Cигнал(-) 136 (27.2%) 144 (28.8%) 370 (74.0%)

Задание 3. Информационное содержание сигнала

Была получена матрица информационного содержания и построено LOGO сервисом WebLOGO 3.

Таблица 3. Матрица информационного содержания.

letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A 7.82 9.33 8.62 11.13 24.21 14.27 6.92 67.56 0.00 0.00 9.44 13.50 6.27
T 10.04 6.05 7.71 4.30 1.84 4.60 1.30 0.00 67.56 0.00 5.73 5.63 10.04
G 12.28 22.14 16.01 13.78 17.86 9.02 15.30 0.00 0.00 74.13 26.41 6.93 18.15
C 16.29 9.91 14.33 18.15 5.08 19.32 27.03 0.00 0.00 0.00 6.69 21.24 12.42
IC(j) 46.43 47.43 46.67 47.35 48.99 47.20 50.56 67.56 67.56 74.13 48.28 47.30 46.88

Рис.4. LOGO для последовательности Козак в геноме человека.

Число сайтов GAATTC в полном геноме одного штамма E.coli.

Был использован геном штама Escherichia coli str. K-12 substr. MG1655.

В результате было найдено 646 сайтов GAATTC в геноме, но ожидаемое число таких сайтов в геноме равно 1097. Такое различие статистически значимо, так как p-value=1.770*10^(-49) при биномиальном распределении.

Список литературы

1. Bochman, M. L., Paeschke, K., & Zakian, V. A. (2012). DNA secondary structures: stability and function of G-quadruplex structures. Nature reviews. Genetics, 13(11), 770–780. https://doi.org/10.1038/nrg3296