Учебная страница курса биоинформатики,
год поступления 2015
Подсказки к заданиями первого блока
Подсказки к заданию 1 (предсказание вторичной структуры тРНК)
Работа с einverted не должна вызвать затруднений (помните про замечательную опцию -h!).
Если программа не находит (или, по вашему мнению, находит мало) инвертированных повторов, попробуйте уменьшить значение параметра "Minimum score threshold".
Для работы с mfold заведите отдельную директорию, в которую поместите файл, содержащий последовательность РНК в формате Fasta (модифицированные основания замените или наиболее сходными каноническими, или буквой N). Запустите mfold без параметров, чтобы получить подсказку. Обратите внимание, что для mfold параметры задаются иначе, чем для большинства известных вам программ. Например:
mfold SEQ=tRNA2.fasta P=15
запустит анализ последовательности из файла "tRNA2.fasta" при значении параметра P, равном 15%. Параметр P - единственный, который Вам имеет смысл менять.
Он указывает, на сколько процентов выдаваемое предсказание структуры может отличаться по своей вычисленной энергии от оптимального. Чем больше значение этого параметра, тем больше вариантов предсказания будет выдано.Сначала запустите mfold, не указывая параметр P. Программа среди прочего выдаст один или несколько файлов с расширением gif - в них изображены предсказания вторичной структуры. Если ни одно из них Вас не устраивает, запускайте mfold снова и снова, придавая P значения 10, 15, 20, etc.
Внимание!
Программа mfold очень не любит, когда входной fasta-файл имеет DOS/Windows формат (т.е., когда конец строки обозначен двумя байтами 0D0A). Не забывайте переводить ваши файлы в Unix-формат (<Shift+F2> в редакторе Far).
Подсказки к заданию 2 (поиск ДНК-белковых контактов)
Внимание! Обозначения атомов в в старом и новом формате могут отличаться!! Работайте все время с одним форматом!
К упр.2
В RasMol нет некоторых из предопределенных множеств атомов, необходимых для выполнения задания. Их придется определять с помощью команды define.
Посмотрите, как в тексте файла из PDB названы нужные атомы: атомы остатка сахара, остатка фосфорной кислоты, атомы азотистых оснований.
В новом формате атомы кислорода остатка фосфорной кислоты обозначаются как *.OP1 и *.OP2. Соответственно командаdefine o_in_phosphate *.OP?
Найден баг RasMol, несмотря на имя атома OP1, он его переименовывает в O1P
определит множество атомов кислорода в остатках фосфорной кислоты. К определениям, использующим знак "?", лучше всегда добавлять "and dna", поскольку в файле могут оказаться лиганды с похожими названиями атомов.
Аналогичным образом определите множества атомов кислорода и углерода в остатках рибозы.
Множества атомов одного азотистого основания, обращенных в сторону большой и малой бороздок, вы определяли в задании 6, упр.1. Остается только объединить ваши результаты с результатами однокурсников для получения предопределенных множеств всех 4-х оснований!
После того, как все необходимые множества определены, с помощью команды select within( <порог расстояния>, <множество>) и элементарных логических операций над множествами определите количество контактов каждого типа и заполните таблицу.
Рекомендуем писать скрипт! Работа большая, исправить ошибку в скрипте просто, а без скрипта придется все делать заново!
В начале скрипта имеет смысл написать команды, показывающие ДНК в остовной модели, а затем команды, последовательно показывающие атомы из каждого определенного множества в виде небольших шариков. Так легче поймать ошибку в определении множества. Используйте команду pause для просмотра результата выполнения каждой команды.
К упр.3
Программа nucplot, предназначенная для визуализации контактов между ДНК и белком, запускается на сервере kodomo.
Программа работает только со старым форматом PDB !!(используйте программу remediator).
Синтаксис запуска уточните, запустив nucplot без параметров. Схема контактов будет представлена в формате Postscript (ps). Просмотрите изображение ассоциированной программой GSview и сохраните картинку в формате JPG.