Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2022

1. **Анализ компонент.** Классическое силовое поле включает члены для связей, углов, торсионных углов и невалентных взаимодействий. Объясните, почему потенциал Морзе для связи часто заменяют гармоническим осциллятором, и в каких случаях это приближение становится неприемлемым. Как учитываются 1–4 взаимодействия и почему они требуют специальной обработки? 2. **Сравнение подходов.** Сравните аддитивные силовые поля (AMBER, CHARMM) с поляризуемыми (AMOEBA) и грубозернистыми (Martini). Для каких задач каждый из этих подходов оптимален? Приведите примеры из литературы, где использование грубозернистого моделирования позволило достичь временных масштабов, недоступных для all‑atom MD.

1. **Выбор базиса.** Почему в *ab initio* расчётах используют гауссовы функции вместо функций Слейтера? Опишите нотацию базисов Поупла (например, 6‑31+G(2df)). Какие физические эффекты отражают символы «*», «+» и «(2df)»? В каких случаях применение диффузных и поляризационных функций критически важно? 2. **Семиэмпирические методы.** В чём состоит приближение нулевого дифференциального перекрывания (ZDO) и как оно эволюционировало от CNDO к PM3? Какие параметры подгоняются в PM3 и какие свойства (теплоты образования, геометрия, спектры) воспроизводятся хорошо, а какие – плохо? Приведите примеры задач, где семиэмпирика остаётся методом выбора (например, моделирование фотохимических реакций в больших системах).

1. **Интеграторы и временной шаг.** Объясните, почему алгоритм Верле (или leap‑frog) широко используется в МД. Какой максимальный шаг по времени допустим для all‑atom моделирования белков и чем он ограничен? Какие методы позволяют увеличить шаг (например, SHAKE/RATTLE, водородная масс‑репараметризация)? 2. **Модели воды.** Сравните трёхточечную модель TIP3P, четырёхточечную TIP4P/2005 и поляризуемую SWM4‑NDP. Какие свойства жидкой воды (плотность, теплота испарения, диэлектрическая проницаемость, коэффициент диффузии) каждая модель воспроизводит лучше, а какие – хуже? Почему для моделирования белков в воде чаще выбирают TIP3P, несмотря на её недостатки?

1. **REMD: теория и практика.** Выведите условие обмена репликами в REMD (вероятность \(P(1 \leftrightarrow 2)\)). Покажите, как число необходимых реплик зависит от числа атомов в системе (\(N_{\text{atoms}}\)). Какие модификации (REST2) позволяют снизить вычислительные затраты? Опишите ограничения REMD для больших белков. 2. **Метадинамика.** Объясните, как строится накапливаемый гауссов потенциал в метадинамике. Что такое «well‑tempered» метадинамика и зачем в ней вводится параметр \(\Delta T\)? Приведите пример из литературы (doi: 10.1073/pnas.1303186110), где метадинамика использовалась для восстановления пути связывания лиганда в фермент. В чём главная проблема метадинамики (выбор коллективных переменных) и как её можно частично решить?

1. **От выравнивания к структуре.** Опишите пошаговый протокол построения модели по гомологии. Почему качество выравнивания критичнее, чем процент идентичности? Приведите пример, когда шаблон с 90% идентичности даёт худшую модель, чем шаблон с 70% (укажите факторы: разрешение РСА, наличие лигандов, деформации активного центра). 2. **Моделирование петель и боковых цепей.** Сравните методы моделирования петель: поиск по базе фрагментов (LOOPY), молекулярная динамика с ограничениями, алгоритм CCD. Какие из них наиболее эффективны для петель длиной 5–8 остатков, а какие – для длинных петель (более 12 остатков)? Как библиотеки ротамеров (например, Dunbrack) используются в моделировании боковых цепей, и какова точность предсказания для поверхностных и внутренних остатков?

1. **Rosetta ab initio.** Опишите фрагментный подход Rosetta: как выбираются фрагменты длиной 3 и 9 остатков из библиотеки PDB, как они собираются и оптимизируются методом Монте‑Карло. Какие энергетические потенциалы (гидрофобный, радиус вращения, водородные связи) используются для отбора нативных конформаций? Почему этот метод работает лучше для небольших белков (<150 остатков)? 2. **Threading и гибриды.** В чём суть threading (протягивания нити) как метода распознавания укладки? Каковы основные недостатки парных потенциалов, используемых в threading? Как метод I‑TASSER комбинирует threading, ab initio и гомологическое моделирование? Сравните производительность I‑TASSER и AlphaFold2 на примерах (ссылка на CASP).

1. **Evoformer.** Детально опишите блок Evoformer: как он одновременно обрабатывает MSA (матрицу \(N_{\text{seq}} \times N_{\text{res}}\)) и парное представление (\(N_{\text{res}} \times N_{\text{res}}\)). Какие механизмы обмена информацией между этими представлениями используются? Объясните, почему простое использование коэволюции (как в trRosetta) недостаточно и как AlphaFold 2 обходит эту проблему. 2. **Структурный модуль.** Как структурный модуль переходит от эволюционных представлений к явным 3D‑координатам? Объясните понятие «invariant point attention» и «структурное нарушение» (structure violation) для повышения точности. Почему модель не предсказывает абсолютные координаты, а оперирует вращениями и трансляциями каждого остатка (каркасы твёрдого тела)? Каковы ограничения модели в предсказании конформационных изменений при мутациях?

1. **Унификация предсказаний.** Опишите, как AlphaFold 3 расширяет возможности AF2 на предсказание комплексов белок–ДНК, белок–РНК, белок–лиганд. Какие изменения в архитектуре (диффузионный модуль, токенизация полимеров и малых молекул) позволили этого достичь? Проанализируйте результаты CASP15 для белок–лигандного докинга: насколько AF3 превосходит классические докинговые программы (AutoDock Vina, Glide)? 2. **Chai‑1 как фундаментальная модель.** Сравните Chai‑1 с AlphaFold 3 по следующим параметрам: доступность (открытый код vs. проприетарный), требования к MSA (режим single‑sequence), точность предсказания интерфейсов. Какие задачи drug discovery (например, дизайн связок, предсказание off‑target эффектов) Chai‑1 решает эффективнее? (ссылка на препринт 2024.10.10.615955).

1. **Прямой и обратный процессы.** Объясните, как работает генерация новых белковых структур с помощью диффузионной модели. В чём отличие от «галлюцинации» (hallucination) с использованием AlphaFold? Почему RFdiffusion значительно быстрее (11 секунд на 100 остатков на RTX A4000) и даёт более высокие оценки по AF2 score? 2. **Условная генерация.** Как в RFdiffusion вводится условие на функциональный сайт (например, мотив связывания)? Объясните метод «partial noise», когда часть структуры фиксирована, а остальная – генерируется. Приведите пример из литературы, где RFdiffusion использовалась для дизайна связок к целевым белкам с высоким сродством (нМ). Какие типы структур (α‑спиральные, β‑листовые) удаются лучше, а какие хуже?

1. **Архитектура графовой сети.** Опишите, как ProteinMPNN использует графовое представление белка для предсказания аминокислотной последовательности по заданному остову. Чем отличается её способность восстанавливать нативные последовательности (52.4%) от классических методов (Rosetta, 33%)? Почему она работает в 200 раз быстрее Rosetta? 2. **Экспериментальная валидация.** Приведите примеры успешного применения ProteinMPNN для «спасения» дизайнов, которые не сворачивались при использовании Rosetta. Как авторы проверяли экспериментально (экспрессия, РСА, термостабильность) синтезированные белки? Какова успешность дизайна мономерных глобулярных белков и белковых связок?

1. **Алгоритм AlphaDesign.** Опишите комбинацию градиентного спуска (GD) и MCMC для оптимизации последовательности. Как используется «обратный проброс ошибки» от предсказанной структуры к желаемой? Почему дизайн начинается с последовательностей, характерных для вторичной структуры (SS‑специфичных профилей)? 2. **Экспериментальные результаты.** Какие структуры получились в результате «галлюцинации»? Укажите, сколько белков было синтезировано, сколько из них свернулись в предсказанную структуру, и какова была регулярность (короткие петли, идеальные спирали). Почему авторы называют такие белки «идеальными» и какой вклад вносит кастомизация функции потерь?

1. **BindCraft как конвейер.** Опишите «одношаговый» протокол BindCraft для генерации связок против заданной мишени. Как метод использует внутренние веса AlphaFold2 для оптимизации последовательности и структуры связки? Почему он может работать даже при неизвестном сайте связывания на мишени? 2. **Inpainting и ограниченные галлюцинации.** Объясните концепцию inpainting (восстановление недостающей информации) применительно к дизайну карманов связывания. В чём отличие частичного зашумления (partial noise) от полной генерации? Приведите примеры успешного дизайна связок против сложных мишеней (рецепторы клеточной поверхности, аллергены) с использованием BindCraft.

1. **От графа к поверхности.** Почему использование молекулярной поверхности предпочтительнее для задач предсказания белок-белковых интерфейсов? Как в MaSIF вычисляются геометрические и химические признаки на каждой вершине поверхности (кривизна, гидрофобность, электростатический потенциал)? 2. **MaSIF-site и MaSIF-search.** Сравните задачи, решаемые этими двумя нейросетевыми компонентами. Как MaSIF-site предсказывает вероятные участки связывания, а MaSIF-search ищет комплементарные партнёры, инвертируя признаки? Приведите пример из литературы (doi: 10.1126/science.aat4738), где MaSIF использовался для предсказания новых белок-белковых взаимодействий in silico, впоследствии подтверждённых экспериментально.

1. **Термодинамическая пертурбация (TP).** Выведите уравнение TP для разности свободных энергий \(\Delta A = -k_B T \ln \langle \exp(-\Delta U / k_B T) \rangle_0\). Почему прямое применение этого метода возможно только при значительном перекрывании фазовых пространств? Как введение параметра \(\lambda\) решает эту проблему? Объясните, что такое «алхимическое превращение» в контексте расчёта относительной свободной энергии связывания (\(\Delta\Delta G\)). 2. **Потенциал средней силы (PMF) и umbrella sampling.** Что такое PMF и почему он является свободной энергией вдоль координаты реакции? Опишите алгоритм umbrella sampling с гармоническими ограничениями и метод WHAM для восстановления PMF. Приведите пример из литературы (например, диссоциация лиганда из активного центра фермента) с указанием типичных значений жёсткости пружины и числа окон.

1. **Стандартизация и поиск.** Объясните, как алгоритм Моргана (Morgan algorithm) приводит молекулу к уникальному каноническому SMILES. Зачем это нужно для баз данных? Приведите пример, когда две записи одного и того же вещества имеют разные входные SMILES, но одинаковый уникальный SMILES. 2. **SMARTS и фармакофорный поиск.** Чем SMARTS отличается от SMILES? Напишите SMARTS паттерн для поиска ароматического азота в пирроле, входящего в пятичленное кольцо. Как на основе набора активных молекул строят 3D‑фармакофор? Опишите основные этапы: конформационный поиск, выравнивание, определение общих точек (доноры/акцепторы водородной связи, гидрофобные центры, ароматические кольца).

1. **Алгоритмы поиска поз.** Как метод генетического алгоритма (в AutoDock) или итерационной локальной поиск (в Glide) генерирует возможные положения лиганда в активном центре? Какие основные скоринговые функции используются (эмпирические, основанные на знании, консенсусные) и какие их недостатки (например, проблема десольватации)? 2. **Продвинутый докинг.** Чем отличаются жёсткий докинг (rigid docking) от гибкого (flexible docking)? Как учитывается гибкость белка (например, через ротамеры боковых цепей или ансамбль конформаций из МД)? Опишите метод FEP+ (Schrödinger) как комбинацию алхимических превращений и REST2 для повышения точности предсказания свободной энергии связывания.

1. **Цикл направленной эволюции.** Опишите классический цикл: создание библиотеки вариантов (например, error‑PCR или DNA shuffling), отбор, амплификация. В чём принципиальное отличие направленной эволюции от рационального дизайна? Приведите пример успешной направленной эволюции фермента (например, эстеразы или липазы) с улучшением активности в десятки раз. 2. **Методологии и ограничения.** Какие современные методы (фаговый дисплей, FACS, микрофлюидика) используются для высокопроизводительного отбора? Почему направленная эволюция часто застревает на локальных оптимумах («плато») и как это можно преодолеть (например, с помощью эпистазис‑ориентированных библиотек)? Сравните эффективность направленной эволюции in vivo vs in vitro.

1. **Вычислительная проверка.** Какие методы расширенной выборки (метадинамика, AWH, umbrella sampling) позволяют оценить корректность предсказанного дизайна белка или комплекса? Объясните концепцию «воронки связывания» (funnel‑shaped energy landscape) и как её построение подтверждает наличие специфического взаимодействия. Приведите пример из лекции (видео funnel.mp4). 2. **Экспериментальная валидация.** Какие экспериментальные методы (рентгеноструктурный анализ, ЯМР, ITC, SPR, масс‑спектрометрия) используются для проверки in silico предсказаний? Приведите пример, когда предсказанный диффузионной моделью белок был синтезирован, и его структура подтверждена РСА с высоким совпадением (RMSD < 1.5 Å). Опишите, какую роль играют вычисления в интерпретации экспериментальных данных (например, совместная рефайнструктура с MDFF).

Эти билеты охватывают все ключевые темы курса, требуют не только воспроизведения, но и анализа, сравнения и привлечения литературных данных.

2022/8m/Exam (последним исправлял пользователь golovin 2026-05-26 15:40:54)