Задания по гибкому выравниванию

Все файлы для проверки должны:
- лежать на диске H (т.е. в вашем аккаунте) в директории H:/Term5/Practice12;
- иметь имена, начинающиеся вашим пользовательским именем (обозначаемым ниже XXXXXXX).

Deadline — 5 декабря включительно (файлы скачиваются утром в понедельник).

Для проверки следует предоставить:

  1. Отчёт в файле XXXXXXX_flexaln.doc

  2. По заданию 1:

    1. Пункт в отчёте. В задании описано, что должно быть включено в описание.

    2. Выравнивание в формате msf с размеченными кластерами плюс-блоков и выделенными функционально консервативными позициями

    3. Совмещение одной структуры с изогнутой второй в PDB формате с раскрашенными кластерами плюс-блоков (ваши проблемы как это представить — скриптами или сохраненным проектом Pymol)

  3. По заданиям 2 и 3:

    1. Пункт в отчёте.

    2. Выравнивание в формате той программы, которую использовали

    3. Если необходимо – любые другие материалы.

Обязательными являются задания 1 (кроме 1a и 1b), 3 и 2.


1. Построить выравнивание последовательностей данной пары протеинкиназ с разметкой кластеров плюс-блоков
, т.е. блоков, в которых выравнивание подтверждено структурными данными. Обосновать правильность выравнивания фрагментов каждого из блоков.
Задание выполнить с помощью FATCAT.

Пары структур:

(I) 1ad5 и 1k9a

(II) 1fmk и 1k9a

(III) 1opk и 1k9a

Изо всех структур можно взять любую из цепочек, например, цепочку A.

В отчёте представить следующую информацию.

  1. Идентификаторы сравниваемых цепочек, их длины и названия белков

  2. О кластерах плюс-блоков:

    1. Число кластеров

    2. Суммарную длину обоснованного выравнивания, процент от длины меньшей последовательности

    3. Для каждого кластера:

      1. идентификатор кластера

      2. положение в выравнивании (от, до)1

      3. число плюс-блоков в кластере (плюс-блок – нерасширяемый блок обоснованного выравнивания; по определению, в нем нет символов гепов)

      4. суммарное число позиций обоснованного выравнивания в кластере

      5. суммарное число совпадающих и сходных букв в кластере и процент от числа позиций обоснованного выравнивания (“Identity %” и “Similarity %”)

      6. меру сходства конформаций двух фрагментов из кластера блоков

  3. Заключение

    1. О степени доверия полученному выравниванию (нет ли подозрений об ошибках программы?)

    2. О соответствии кластеров плюс-блоков границам доменов

    3. О том, свидетельствует ли обнаруженная изменчивость конформации о конформационной подвижности, ошибке кристаллизации или, скорее, об эволюционной изменчивости .

1a.(*) Описать различия в результатах гибкого выравнивания структур из задания 1 и жесткого выравнивания структур.

1b.(*) Проверить выравнивание последовательностей, полученное в результате выполнения задания 1, по структурным данным с помощью сервиса Geometrical Core (Б.Нагаев)

2. Для пары структур из задания 1 построить гибкое выравнивание с помощью другой программы или сервиса. Сравнить результаты (прежде всего, выравнивания последовательностей с размеченными блоками) и кратко охарактеризовать в протоколе их различия, если найдутся.

3. Сравните данную пару структур одного и того же белка с помощью гибкого выравнивания. В протоколе опишите результат и объясните наблюдаемое явление: это конформационная подвижность или артефакт кристаллизации (тогда – какая структура правильная)?

(I) Димеризационные домены белка NF-kappa-b из файлов 1u42 и 1u36 (NF-kappa-b - полифункциональный транскрипционный фактор животных)

(II) Гемофор HasA из бактерии S. marcescens из файлов 2cn4 и 1dk0 (Гемофор участвует в краже бактерией железа из эритроцитов)

ПОДСКАЗКИ.
1) Иногда полезно посмотреть как уложены молекулы в кристалле с помощью symexp в Pymol.

2) Всегда полезно проверить свои догадки по литературе (прилагается)

Результаты, ваши выводы и их обоснования кратко опишите в протоколе.

4.(*) POSA: 1ncsA 2sasA 1jfjA

5.(*) Написать программу, преобразующую выравнивание последовательностей из выдачи одного из сервисов гибкого выравнивания (ppm, flexprot, FATCAT) в стандартный формат (fasta или, лучше, msf, используя seqret). Для FATCAT можно доработать мой скрипт на python’е, см. на диске P.

Указания

Примеры использования сервисов и программ разберем на занятии. Записывайте или запоминайте!

Сервисы

Сервис FATCAT (парное гибкое выравнивание) — сервис первого выбора:
http://fatcat.burnham.org/fatcat-cgi/cgi/fatcat.pl?-func=pairwise

Сервис FlexProt
http://bioinfo3d.cs.tau.ac.il/FlexProt/
Выдает лучшие выравнивания без изгибов, с одним изгибом, с двумя и т.п.

Программа ppm (парное гибкое выравнивание)
Установлена на kodomo. Выполните ppm без параметров, чтобы получить инструкцию. Капризна: если неправильно заданы параметры, то вылетает по Segmentation fault

Сервис ALADYN (парное гибкое выравнивание)
http://aladyn.escience-lab.org.

Сервис RAPIDO (парное гибкое выравнивание, хотя на вход можно подать несколько структур ) http://webapps.embl-hamburg.de/rapido

Сервис SSM = PDBeFOLD (жесткое выравнивание структур, парное, множественное и поиск по PDB)
http://www.ebi.ac.uk/msd-srv/ssm/

Скрипт fatcat_to_fasta.py, переводящий выравнивание последовательностей из формата FATCAT в msf (лежит в директории y08/Term_5/Practice12). Выполните

python fatcat_to_fasta.py -h
для получения подсказки.
Знаю одну возможную ошибку в нем (в первой позиции выравнивания fatcat с разметкой кластеров плюс-блоков мною ожидается не пробельный символ; не знаю, всегда ли так. Пока не успел исправить код )

Получение pdb-файла на kodomo: get-pdb <pdb-code>

Сервис Geometrical Core (проверка выравнивания последовательностей по структурным данным)
http://mouse.belozersky.msu.ru/~sas/gc.html
или на kodomo команда geometrical-core.



1 Таких участков может быть несколько, так как кластер не обязан состоять из блоков, идущих подряд.