Практикум 4

Комплексы ДНК-белок. Вторичная структура РНК

Задание 1

В этом задании предлагалось сравнить вторичную структуру тРНК, предсказанную программами einverted (emboss) и RNAfold (ViennaRNA, алгоритм Цукера) с реальной. PDB ID использованной тРНК — 1GTR.

Программа einverted находит локальные выравнивания данной последовательности с обратной комплементарной ей. Соответственно, ей нужны параметры, использующиеся при поиске выравнивания: "gap" (штраф за увеличение количества символов гэпа в выравнивании на один; отдельного штрафа за открытие гэпа нет), "match" и "mismatch". При этом почему-то "gap" записывается как положительное число, а "mismatch" — как отрицательное, хотя, очевидно, модуль того и другого берется с минусом при подсчете веса выравнивания. Кроме того, при запуске программы указывается порог — если нет ни одного выравнивания с весом выше порога, программа не возвращает ничего. Программа может вернуть несколько непротиворечащих друг другу выравниваний. При каждом запуске программы я указывал порог, равный нулю (самый низкий возможный). Если я говорю про "дефолтные параметры", я все равно подразумеваю, что порог равен нулю.

В задании предлагалось попробовать подобрать параметры, при которых вторичная структура предсказывается лучше всего. Я написал скрипт, который перебрал параметры: gap — от 0 до 12, match — от 0 до 10, mismatch — от 0 до −10. Так как порог равен нулю, запуски программы с параметрами, отличающимися пропорциально (например, 1:2:−2 и 2:4:−4), по сути эквивалентны, так как оптимальные выравнивания будут одинаковыми, и только их вес будет отличаться. Поэтому такие сочетания параметров, в которых наибольший общий делитель больше одного, я исключил.

Затем я сравнил каждое нашедшееся выравнивание с реальной структурой тРНК (pdb file → find_pair, см. пред. практикум). Для этого я вычислил балл: +1 за каждую правильно найденную каноническую пару, входящую в стебель, −1 за каждую неправильно найденную и −1 за каждую ненайденную (рис. 1).

einverted_grid
Рис. 1. Результат запуска программы einverted с разными параметрами. По осям отложен логарифм отношения gap/match и gap/−mismatch. Оттенками серого показан балл сходства с реальной структурой. Синим ромбом отмечены параметры по умолчанию. Красный фон — это такие сочетания параметров, которые не встретились в моем переборе (я перебрал не очень много целых чисел, см. выше). Те сочетания, где один из параметров равен нулю, исключены (среди них нет лучших предсказаний, а на таком графике они находятся на бесконечности).

Во-первых, видно, что посчитанный так балл всегда получается отрицательным, т.е. ни одного выравнивания, действительно близкого к реальной структуре, не нашлось. Лучший результат — −7. Я проверил, все выравнивания с баллом −7 одинаковые.

Чтобы можно было нагляднее сравнивать выравнивания, я записал их в dot-bracket notation и нарисовал с помощью программы RNAplot из пакета ViennaRNA (рис. 2, 3, 4). Лучшее предсказание (с баллом −7) — то, в котором нашелся только акцепторный стебель (рис. 3).

tRNA_real
Рис. 2. Реальная вторичная структура тРНК. Взаимодействующие пары оснований найдены программой find_pair по pdb-файлу (см. пред. практикум). Показаны только канонические пары, образующие стебли. Кроме них, в структуре есть еще девять пар оснований, связанных водородными связями, одна из которых каноническая. Программа RNAfold предсказала в точности такую же структуру, как та, которая изображена на этом рисунке
tRNA_einverted
Рис. 3. Лучшее предсказание вторичной структуры, которое удалось получить с помощью einverted. Как видно, в нем нашелся только акцепторный стебель
tRNA_einverted_other
Рис. 4. Случайный пример вторичной структуры, полученной с помощью einverted. В этом случае параметры программы были такими: gap — 1, match — 3, mismatch — −5. Как видно, получившаяся струкутра не имеет никакого отношения к реальной

Программа RNAfold верно нашла все стебли, присутствующие в реальной структуре. Дополнительные водородные связи, не входящие в состав стеблей, она не нашла.

Я не думаю, что удастся найти параметры выравнивания, с которыми программа einverted предскажет вторичную структуру качественее, так как большую часть "разнообразия" возможных параметров я будто бы перебрал: остались непроверенными либо варианты, где какие-то из параметров отличаются многократно, больше чем в 10–12 раз ("за поля" на рис. 1), либо варианты с бóльшими значениями параметров, но похожие на те, которые уже есть (например, 10:20:−19 вместо 1:2:−2 — заполнение красного фона на рис. 1.) Почему-то мне кажется, что ничего из этого не приведет к принципальному улучшению качества предсказания.

В таблице нумерация нуклеотидов такая же, как в pdb-файле.

Участок структуры Позиции в структуре (по результатам find_pair Результаты предсказания с помощью einverted Результаты предсказания по алгоритму Зукера
Акцепторный стебель 2–7, 71–66 2–7, 71–66 2–7, 71–66
D-стебель 10–12, 25–23 - 10–12, 25–23
Т-стебель 49–53, 65–61 - 49–53, 65–61
Антикодоновый стебель 39–43, 31–27 - 39–43, 31–27
Общее число канонических пар нуклеотидов 20 6 19

Задание 2

PDB ID структруы, рассматриваемой в этом задании — 1RH6.

Упражнение 1
All
Вся структура
DNA
ДНК в проволочной модели
Sugar
Атомы кислорода в остатках дезоксирибозы
Phosphate
Атомы кислорода в остатках фосфорной кислоты
N
Атомы азота в азотистых основаниях
Упражнение 2
Контакты цепи B белка с ДНК. "Полярный контакт" — это азот или кислород ДНК, находящийся на расстоянии меньше 3,5 Å от азота или кислорода белка. "Неполярные контакты" — то же для атомов углерода, фосфора или серы и расстояния 4,5 Å.
Контакты атомов белка с: Полярные контакты Неполярные контакты Всего
Остатками 2'-дезоксирибозы 4 37 41
Остатками фосфорной кислоты 10 11 21
Остатками азотистых оснований со стороны большой бороздки 4 7 11
Остатками азотистых оснований со стороны малой бороздки 1 0 1

Как видно, неполярных контактов оказалось больше, чем полярных. Это ожидаемо: и неполярных атомов больше, и расстояние в определении "контакта" для них больше. Среди полярных выше доля контактов с остатками фосфорной кислоты, а среди неполярных — с остатками дезоксирибозы. Это тоже логично: в остатках фосфорной кислоты 2/3 атомов "полярные", а в остатках дезоксирибозы — 3/8. Кажется, никаких неожиданных результатов не получилось. И хорошо!

Упражнение 3
Nucplot
Упражнение 4
Tyr41
Аминокислотный остаток с наибольшим числом указанных на схеме контакотов — тирозин 41. Он образует два непосредственных контакта с ДНК и один мостиковый, через воду
Tyr41
На мой взгляд, самый важный для распознавания последовательности аминокислотный остаток — аргинин 23, так как это единственный аминокислотный остакток, образующий две водородные связи с азотистыми основаниями. Кажется естественным, что для распознавания последовательности важны водородные связи с азотистыми основаниями, а не с сахаро-фосфатным остовом