Учебная страница курса биоинформатики,
год поступления 2013
Практикум 5. Задания
Результат для проверки
1. HTML страница с описанием совмещения полипептидных цепей двух белков:
- PDB-код, цепочка белка, выбранного для поиска, название, организм
- Где искали, число просмотренных структур
- Число находок по сходству структур [если изменяли параметры поиска - укажите]
- Из какого организма найденный белок
- Сравнение таксономии двух белков (пример ответа: "белки разных видов одного рода")
- Название найденного белка
- Сравнение двух белков по названию: ваше мнение о том, можно ли можно ли считать, что оба белка выполняют одну и ту же функцию, т.е. находка - "тот же белок из другого организма"? Помните о синонимах!
- Параметры сходства (см. перечисление ниже)
- Рисунок с совмещением, подпись
2.(*) Ссылка с HTML страницы на Excel таблицу со списком белков, найденных поиском по полям PDB(задание 2)
- Указать критерии отбора!
1. Опишите совмещение полипептидных цепей вашего белка и похожего по структуре
Для белков нескольких студентов (Кузнецова, Белов, Корягина, Погорельская, Якушева)нет подходящих структурных гомологов. Им, а также тем студентам, которым хочется сменить белок для этого задания, можно поступить так. Взять любую структуру из списка 1ofp, 1tjp, 3l8d, 1qpi, 2MAB; или взять структуру порина (поиск в PDB по слову porin), отличного от показанного в презентации; или взять любую другую структуру.
Методы:
Cервис PDBeFold (http://www.ebi.ac.uk/msd-srv/ssm/) для поиска и совмещения полипептидных цепей
Jmol как Java-апплет на страницах PDBeFold и/или Jmol, установленный на локальном компьютере
Java-апплет - это программа на языке Java, загружаемая на локальный компьютер с удаленного сервера при обращении через веб-браузер. На локальном компьютере исполняет программу виртуальная Java-машина, которая включена во все современные ОС. ОС может заблокировать автоматическую загрузку апплета. В этом случае может потребоваться добавить сайт http://www.ebi.ac.uk в список сайтов, с которых разрешена загрузка апплетов. Этот список можно найти в своем компьютере в меню Java (Windows).
Апплет-версия Jmol работает так же, как основная версия этой программы. Консоль вызывается правой кнопкой мыши.
a. Найдите белки, структура которых сходна со структурой вашего белка
Используйте сервис PDBeFold
"launch" => Query (что на вход): PDB код - в окошко PDB entry => Find chain и оставьте любимую цепочку, если их несколько
- Проверьте, что Target (где искать): Whole PDB archive
- Submit и любуйтесь как работают процессоры европейского института биоинформатики над вашим заданием
- Со страницы с результатом спишите:
- сколько PDB-файлов и цепочек просмотрено
- сколько находок
- В таблице важны пять колонок (перечисляю не в том порядке, что в таблице):
- Match - PDB код и цепочка каждой находки
- Title - название структуры с находкой
- N_align - число сопоставленных C_alpha атомов во входной цепочке и в находке
RMSD - мера сходства структур (расшифровывается как Root Mean Square Deviation, см. тут формулу и описание)
- %seq - процент совпадающих аминокислотных остатков (по типу, Val - Val и т.п.) среди всех сопоставленных
- Полезны также колонки
- N_g - число "гэпов", т.е. участков расхождения полипептидных цепей сравниваемых белков(N- и C-концевые расхождения не считаются)
(Query) %sse, (Match) %sse - процент сопоставленных элементов вторичной структуры - альфа-спиралей и бета-тяжей во входной структуре и в находке, соответственно.
b. Выберите один белок для сравнения структур
Сохраните перечисленные выше параметры выбранной находки.
Рекомендуется проверить находки визуально (пункт c) прежде, чем выбрать окончательно.
Рекомендуемые значения параметров:
%seq < 95%, во всяком случае меньше 100 (100% - полное совпадение последовательностей, т.е. тот же белок)
- N_align 70-90% от числа остатков в вашей структуре
RMSD в пределах 0.7 - 2.0 ангстрем (лучше 1.0-1.5; точно не брать >2.5 и <0.5)
N_g > 0
К приведенным границам следует относиться как к ориентирам. На практике может оказаться, что ни одна из находок не удовлетворяет всем критериям. В этом следует поступить так.
Вернуться на страницу с формой запроса и изменить параметры Lowest acceptable match (%) на 50% и для Query, и для Target.
- Немного нарушить рекомендуемые параметры находки
- Спросить преподавателя
c. Постройте совмещение полипептидных цепей вашего белка и выбранного
Откройте совмещение полипептидных цепей: щелкните по номеру находки (самый левый столбец) => View Superposed. В файле с совмещением структур PDBeFold входную цепочку переименовывает в "A", находку - в "B".
- Выберите стиль работы:
- в апплете, вызовите консоль (правая кнопка мыши) - рекомендуется
Jmol на локальном компьютере; для сохранения файла с совмещением: правая кнопка => File => Save a copy ...., дайте расширение .zip (т.к. файл заархивирован, но расширение не указано), разархивируйте и назовите XXXXXXX_YYYY-ZZZZ.pdb (YYYY, ZZZZ - PDB-коды). Также (и так же) можно сохранить скрипт, восстанавливающие текущее изображение; изображение как графический файл.
d. Создайте изображение совмещенных цепей или их частей
- Выберите участки полипептидных цепей для изображения. Рекомендации:
- участок должен включать 3-5 хорошо совмещаемых элементов вторичной структуры (они покрашены голубым и темно-голубым при открытии файла в апплете) и хотя бы один участок с расхождением цепей между ними
- определите (команда define) множество, состоящее из C_alpha атомов цепочки A, принадлежащих выбранному участку; то же - для цепочки B.
- Изображение:
- оба участка - в остовной модели (так виднее совмещение C_alpha атомов)
- раскраска - по цепочкам
- C_alpha атомы цепочки A, приближенные к C_alpha атомам цепочки B, - в шариковой модели; и наоборот, с заменой цепочек; порог расстояния - 1.5 - 2.0 ангстрема. Сохраните число атомов; это наиболее хорошо совмещаемые C_alpha - т.н. "геометрическое ядро"
- Выделите цветом (или надписью) один из гэпов - участка одной цепочки, не имеющего аналога в другой; берите участки между совмещенными участками, а не на концах!
- Не забудьте описать ваши обозначения в подписи к рисунку на сайте!
Предлагаю такую технологию: в апплете выбираете остовную модель, оставляете цепочку A; выбираете подходящий участок, исходя из окраски совмещенных частей; определяете множество для цепочки A, оставляете только его; изображаете цепочку B в (тонкой) остовной модели, находите начало и конец соотв. участка в B; и так далее.
2.(*) Составьте список структур, имеющих что-то общее с вашей структурой
- Цель задания - научиться использовать "Advanced search" на сайте PDB. Одно конкретное задание для всех составить не удается. Поэтому проявите инициативу! Примеры критериев поиска, которые можно комбинировать:
- белки с тем же названием
- белки из того же организма или таксона более высокого порядка
- структуры, расшифрованные методом X-ray (рентгеноструктурного анализа)
- с разрешением лучше 1.5 ангстрем
- структуры, содержащие тот же лиганд (есть разные способы задания)
- структуры, депонированные в PDB в 2014 году
- структуры, содержащие дисульфидные связи
- ...
Пробуйте!
На выходе надо получить таблицу Excel. Обязательные колонки - не в квадратных скобках:
- Structure title
- Deposition date
- [Experimental method]
- Resolution
- [Ligand name]
- [Ligand image]
- Source (организм, из которого белок)
- Macromolecule Name
- External Database Reference ID (идентификатор последовательности в БД Uniprot)
- [Primary citation: Author, Title, Abstract]
Число строк в таблице может оказаться большим чем число структур, т.к. в одной структуре может быть несколько цепочек и лигандов.
Порядок действий:
PDB => Avanced search => задаете несколько критериев на разные поля => Search. Если число находок - в приемлемом диапазоне (>2 и <40), то сохраните результат, иначе добавьте еще один критерий.
Для сохранения: Проверьте, что указано сохранение структур (Structure а не Ligand), Submit query => в окошке Reports выберите Customizable table, отметьте нужные поля => Create report => Download Excel