Учебный сайт Левина Ильи, 3-й семестр

Предсказание вторичной структуры тРНК. Комплекс ДНК-белок

Задание 1. Предсказание вторичной структуры тРНК

Упраженение 1

Предсказать вторичную структуру тРНК путем поиска инвертированных повторов.

Для того, чтобы найти инвертированные повторы в моей тРНК (PDB ID: 1GTS), мне было необходимо скачать её в fasta-формате с PDB, в полученном файле удалить белковую последовательность (1GTS - комплекс тРНК-белок), чтоб программа не ломалась на ровном месте, и, собственно, подать последовательность в формате USA на вход программе.

Тут возникла другая проблема: инвертированных повторов совсем не было при стандартных настройках программы. Тогда я решил уменьшить параметр "Minimum score threshold", надеясь, что мне это поможет. В итоге, начиная со значения приведённого выше параметра "18" и ниже, программа нашла один инвертированный участок протяжённостью в 6 нуклеотидных пар. Запускал я программу таким образом:

lewis@kodomo:~/term3/block1/pr3$ einverted 'fasta::rcsb_pdb_1GTS.fasta'
Find inverted repeats in nucleotide sequences
Gap penalty [12]: 
Minimum score threshold [50]: 18
Match score [3]: 
Mismatch score [-4]: 
Sanger Centre program inverted output file [emboss_001.inv]: 
File for sequence of regions of inverted repeats. [emboss_001.fasta]:

Файл в формате .inv, показывающий инверитированные участки в последовательности, выглядит таким образом:

EMBOSS_001: Score 18: 6/6 (100%) matches, 0 gaps
       1 ggggta 6       
         ||||||
      69 ccccat 64

Довольно легко по этому инвертированному участку понять, что это акцепторный стебель (или его часть), потому что 1 инвертированный участок находится в самом начале, а 2-й почти в конце последовательности тРНК.

Упражнение 2

Предсказать вторичную структуру тРНК по алгоритму Зукера.

Для того, чтобы предсказать вторичную структуру тРНК по алгоритму Зукера, я воспользуюсь программой RNAfold из пакета Viena RNA Package. Для того, чтобы я мог нормально воспользоваться этой программой, я указал к ней путь такой командой:

export PATH=${PATH}:/home/preps/golovin/progs/bin

После этого я запустил саму программу для предсказания вторичной структуры моей тРНК:

lewis@kodomo:~/term3/block1/pr3$ cat rcsb_pdb_1GTS.fasta | RNAfold --noconv --MEA
>1GTS_1|Chain
GGGGUAUCGCCAAGCGGUAAGGCACCGGAUUCUGAUUCCGGCAUUCCGAGGUUCGAAUCCUCGUACCCCAGCCA
((((((..(((.........))).(((((.......))))).....(((((.......)))))))))))..... (-27.30)
(((((({,(({..,,,,...}}}.(((((.......))))).....|((((.......)))))))))))..... [-28.32]
((((((..................(((((.......))))).....(((((.......)))))))))))..... {-23.10 d=9.39}
((((((..(((.........))).(((((.......))))).....(((((.......)))))))))))..... {-27.30 MEA=59.93}
 frequency of mfe structure in ensemble 0.190896; ensemble diversity 14.06

Я воспользовался параметром --noconv для того, чтобы программа не заменяла тимин на урацил в последовательности тРНК автоматически, ведь не обязательно в тРНК должны быть только урацилы и ни одного тимина. То, что это РНК, определяет прежде всего сахар, присоединённый к азотистому основанию, но никак не наличие исключительно урацила в комплементарной к аденину паре. В последовательностях РНК могут встречаться и тимины тоже.

Параметр --MEA я использовал для того, чтобы программа посчитала в одном из предсказаний структуру с максимальной ожидаемой точностью, то есть, если я правильно понял, построить структуру с идеально посчитанной вероятностью того, что i-тый и j-тый нуклеотиды образуют комплементарную пару. Это нужно для того, чтобы сравнивать полученные результаты предсказаний с "идеальными" смоделированными.

Остальными заинтересовавшими меня параматерами, регулирющими восприятие программой кольцевых и квадруплексных РНК, я пренебрёг, так как знаю, что у меня тРНК классической формы "клевера".

Заметим, что предсказание с наименьшей свободной энергией (если я правильно понимаю выход программы и алгоритм Цукера) является вторым по счёту. Его энергия равна -28.32 ккал/моль.

Увиденные мною здесь элементы вторичной структуры я представлю в таблице ниже.

Стоит отметить, что у меня тРНК связанная с белком, поэтому её достаточно трудно предсказать алгоритмом Цукера (Зукера). Это необходимо учитывать в сводке результатов.

Рис. 1. 2D-визуализация лучшего предсказания алгоритма Зукера

Результаты

Таблица 1. Реальная и предсказанная вторичная структура тРНК из файла 1GTS.pdb
Участок структуры	Позиции в структуре по результатам find_pair	Результаты предсказания
Участок структуры	Позиции в структуре по результатам find_pair	с помощью einverted	По алгоритму Цукера
Акцепторный стебель	2...7 --- 71...66	1...6 --- 69...64	1...6 --- 69...64
D-стебель	10...12 --- 25...23	-	9..11 --- 23...21
Т-стебель	49...53 --- 65...61	-	48...51 --- 62...59
Антикодоновый стебель	37...44 --- 33...26	-	25...29 --- 41...37
Общее число канонических пар нуклеотидов	20	6	19 (?)

Как видно из таблицы, предсказание по алгоритму Цукера довольно сильно приближено к данным программы find_pair, что говорит о том, что алгоритм достаточно точно предсказал структуру, в отличие от программы einverted, которая предсказала только акцепторный стебель тРНК. Но данные в таблице, отражающие предсказание по алгоритму Цукера, с большой долей вероятности могут быть неверны из-за того, что у меня очень плохо получилось прочитать то предсказание, которое получилось лучшим (а именно: не было понятно, что в ней значат запятые и фигурные скобки).

Задание 2. Поиск ДНК-белковых контактов в заданной структуре

Упражнение 1

Вспомнить, как помощью команды define JMol задавать множества атомов.

Получилось это довольно успешно, результат работы Вы сможете посмотреть вот в этом файле.

Упражнение 2

Описать ДНК-белковые контакты в заданной структуре (1pp8.pdb). Сравнить количество контактов разной природы.

Введём некие условности: будем считать полярными атомы кислорода и азота, а неполярными - атомы углерода, фосфора и серы. Назовем полярным контактом ситуацию, в которой расстояние между полярным атомом белка и полярным атомом ДНК меньше 3.5Å. Аналогично, неполярным контактом будем считать пару неполярных атомов биомолекул на расстоянии меньше 4.5Å.

Здесь Вы сможете найти скрипт, с помощью которого я проводил исследование в JMol и проводил подсчёт разных взаимодействий. Все результаты я поместил в таблицу:

Таблица 2. Контакты разного типа в комплексе 1PP8.pdb
Контакты атомов белка:	Полярные	Неполярные	Всего
с остатками 2'-дезоксирибозы	9	53	62
с остатками фосфорной кислоты	38	45	83
с остатками азотистых оснований со стороны большой бороздки	5	20	25
с остатками азотистых оснований со стороны малой бороздки	6	3	9

В апплете выше зелёным показаны атомы ДНК, а синим - атомы белка. Апплет может работать некорректно, поэтому очень советую запускать скрипт через программу JMol, установленную на компьютер.

Как мы можем заметить, неполярных контактов белка с 2'-дезоксирибозой наибольшее количество в таблице, а неполярных контактов белка с остатками азотистых оснований со стороны малой бороздки - наименьшее. При этом, остатки фосфорной кислоты дают в сумме самое большое количество контактов ДНК-белок, его с небольшим отрывом "догоняют" остатки дезоксирибозы, в то время как контактов белка с остатками азотистых оснований сильно меньше, чем остальных контактов. Думаю, это можно объяснить тем, что:

В остатке дезоксирибозы в принципе много неполярных атомов углерода, а также она находится ближе к краю биспирали ДНК;
Остатков фосфорной кислоты в нашей биомолекуле много, а также они все находятся на краю двойной спирали;
В большинстве своём в нашей большой биомолекуле цепи белка приближены именно к большой бороздке ДНК (судя по визуализации в JMol), поэтому там больше контактов чем в малой бороздке. Да и в большой бороздке сильно больше неполярных атомов, нежели чем полярных, поэтому в большой бороздке в 4 раза неполярных контактов больше, чем полярных.

Упражение 3

Получить популярную схему ДНК-белковых контактов с помощью программы nucplot.

Работал я с биомолекулой 1PP8.pdb.

Учитывая то, что эта программа работает только со старым форматом PDB, мне вновь придётся воспользоваться программой remediator.

Скачивал файл PDB и переводил его в старый формат я также, как в подготовке к заданию 3 прошлого практикума.

*Далее будет отчасти ОР биоинформатика, которого задолбало разбираться с nucplot и его особенностями*

После мучительных дней слёз и мучений я дошёл до того, что nucplot не кушает мой pdb-файл потому, что в нём записано 4 копии биомолекулы. Посмотрев на неё в JMol, я решил "вырезать" из неё 1 копию биомолекулы (3 цепи: K, J и F, например). Мне было необходимо написать скрипт, который сделает за меня всю работу: скопирует нужные мне цепи (и всю сопутствующую инфу PDB) из 1pp8_old.pdb в другой файл, который я назвал 1pp8_old_cut.pdb.

Мой скрипт запускается вот такой командой:

python3 pdb_mol_cutter.py [имя_входного файла.pdb] [имя_выходного_файла.pdb]

Но мой скрипт, естественно, заточен под обработку моего конкретного файла и вырезания из него моих конкретных цепей в определённом количестве. Просто я торопился и не хотел расписывать использование скрипта для общих файлов.

Далее я применил вот такую последовательность команд:

nucplot 1pp8_old_cut.pdb

ps2pdf nucplot.ps

Первой командой я запустил nucplot с моим "обрезанным" файлом.pdb, а второй командой я преобразовал ps-выход nucplot'а в pdf, чтоб его можно было нормально просмотреть и вставить в сайт. А вот, собственно, и pdf-файл:

nucplot.pdf

Схема изображения ДНК-белковых контактов получена!

Упраженение 4

На полученной схеме выбрать:

Аминокислотный остаток с наибольшим числом указанных на схеме контактов с ДНК;
Аминокислотный остаток, по-вашему мнению, наиболее важный для распознавания последовательности ДНК. В отчете привести обоснование выбора, а также 2 картинки, полученные с помощью JMol. Картинки должны иллюстрировать контакты выбранных аминокислотных остатков с ДНК. Под картинками приведите подписи, поясняющие изображение.

Задача 1

Как мы можем заметить по схеме, у Arg88 наибольшее число контактов с ДНК: целых 6, и, судя по выдаче nucplot они все являются не водородными. Вероятнее всего, они ионные, так как радикал аргинина положительно заряжен, а остатки фосфорной кислоты в ДНК заряжены отрицательно. Но возникает тогда другой вопрос: каким образом этот 88-й аргинин связывается с остатком дезоксирибозы? Вполне вероятно, что также, ионным образом, но при этом я не могу насчитать по 3 ионных контакта ни с остатком сахара, ни с отстатком фосфорной кислоты, ни, тем более, одновременно. В общем, я думаю, что nucplot просто выдал все возможные взаимодействия остатка аргинина с ДНК.

Рис. 2. Взаимное расположение Arg88 рядом с остатками фосфорной кислоты №6 и №7, а также с остатком 2'-дезоксирибозы №6

Задача 2

Наиболее важным для распознавания нуклеотидной последовательности а. о. я выбрал Asn81, так как у него есть водородная связь с О4, характерным только для тимина. Вообще, это один из двух а. о. в этой биомолекуле, который связан с остатком азотистого основания, а не с чем-то ещё в ДНК. Lys24, также имеющий водородную связь с одним из кислородов тимина, связан именно с O2, который характерен не только для тимина, но и для цитозина.

Рис. 3. Связь ND2-атома из Asn81 с O4-атомом из T7

Рис. 4. Связь NZ-атома из Lys24 с O2-атомом из T12