Предположим, перед нами стала задача оценить пространство конформаций, которые принимает флавинадениндинуклеотид (ФАД) в структурах белков, или проанализировать взаимодействующие с ним аминокислотные остатки. Наивный подход — скачать всю базу PDB (>123 000 структур) и в каждой структуре искать ФАД — достаточно трудоемкий процесс. К счастью, в RCSB PDB есть инструмент "Advanced search". С помощью него можно получить структуры, удовлетворяющие определенным критериям. Для этого задания я сформулировал следующие критерии: получить такие структуры из банка PDB, что:
Всего было получено 57 структур. Их можно скачать, запустив с помощью javawc
следующий файл. Также сервис PDB позволяет скачать
последовательности всех найденных записей в формате fasta. По результатам выдачи можно сформировать таблицу, включив в нее интересующие пользователя поля. Например,
в данном практикуме я сформировал таблицу с полями: PDB ID, CATH ID, SCOP ID, Pfam ID, Ligand ID, Ligand SMILES, Structure Title, Resolution, Classification, MW, Biological Process, Molecular Function, EC. Таблицу
можно скачать.
Все полученные 57 структур визуализированы ниже. ФАД покрашен в красный. Порядок соответствует порядку в выложенной выше фасте.