Запуск AlphaFold2

Введение

В этом практикуме я рассматривала возможности AlphaFold2 для предсказания структуры последовательностей, имеющих спирали в качестве вторичной структуры. Для этого я совершила 3 запуска в ColabFold с параметрами по умолчанию для следующих последовательностей:

GSHMASLDMAEIKEKICDYLFNVSDSSALNLAKNIGLTKARDINAVLIDMERQGDVYRQGTTPPIWHLTDKKRERMQIK
GSHMASLDMAEIPPPPCDYLFNVSDSSALNLAKNIGLTKARDINAVLIDMERQGDVYRQGTTPPIWHLTDKKRERMQIK
GSHMAPPPPPPPPPPPPPPPPPPSDSSALNLAKNIGLTKARDINAVLIDMERQGDVYRQGTTPPIWHLTDKKRERMQIK 
Параметр use_template был выключен, то есть предсказание строилось без опоры на белки из PDB с похожим сиквенсом. Чтобы оценить предсказание программы, я сравнила предложенные модели со структурой, полученной методом рентгенотруктурного анализа.

Поиск гомологов в Protein Blast

С помощью Protein Blast были получены последовательности, схожие с анализируемыми. Для первой анализируемой последовательности было обнаружено полное совпадение c последовательностью домена Zb фермента ADAR1. Выравнивание можно увидеть на Рисунке 1. Для этого белка есть структура 1XMK , разрешенная X-ray с отличным разрешением 0.97 Å.

Аденозин деаминазы (ADARs) - это ферменты, которые превращают аденозин (A) в инозин (I) в двухцепочечной РНК. [1] I структурно напоминает гуанин, поэтому нарушается нормальное спаривание A:T, и молекула РНК может стать нестабильной. ADAR1 важен для регуляции и процессинга РНК (сплайсинг, редактирование и тд), играет важную роль в иммунитете. Двухцепочечные РНК, в первую очередь ассоциируются с вирусами, но могут иметь и эндогенное происхождение (например, дцРНК транспозонов или образованные в митохондриальном матриксе). ADAR1 позволяет отличать "своих" от "чужих", ингибируя антивирусный ответ на собственные дцРНК. [2] У ADAR1 есть Z-a домен, который с высокой афинностью связывает Z-формы РНК/ДНК. Гомологичный ему домен, Z-бета, при этом связывать ДНК не может. Оба домена принадлежат к семейству доменов спираль-поворот-спираль (HTH укладка). [3]

Остальные две последовательности были получены из первой путем замещения остатков N-конца на цепочки пролинов разной длины - из 4 и 16 остатков пролинов соотвестсвенно. Подряд идущие пролины известны тем, что сами могут образовывать вторичную структуру - полипролиновую спираль. Обычно в белках встречается не более 5 идущих подряд остатков пролина, эти участки плохо кристаллизуются.[4] Видимо, таких структур с большим числом подряд идущих пролинов немного, я нашла одну - 4OR9. Посмотрим, как с этой задачей справится AlphaFold2.

seqA
Рисунок 1. Выдача blastp. Выравнивание анализируемой последовательности с Zb доменом ADAR1 человека. Рамками разных цветов выделены участки, которые будут заменены на пролины.

Анализ результатов

После каждого запуска я получала 5 предсказаний. Они покрашены от N к C концу, а также по метрике pLDDT, которая отражает "уверенность" в предсказании для каждой позиции.

  • Первая модель (rank1) по первой последовательности представлена на Рисунке 2. Можно заметить, что разрешена она уверенно, за исключением небольших участков в петлях и конца длинной альфа-спирали. Затем я наложила все пять моделей на структуру 1XMK (Рисунок 2, 1XMK красного цвета). Действительно, в 4 из 5 моделей альфа-спираль длиннее, чем в 1XMK. Однако я полагаю, что спираль была развернута для взаимодействия с кофактором, так что это может не быть ошибкой AlphaFold. Также расхождения были в некоторых петлях и на концах альфа-спиралей. Укладка предсказана верно и довольно точно.
  • seqA seqA seqA
    Рисунок 2. Выдача AlphaFold2 для первой последовательности (синий - наибольшая уверенность в позиции). Наложение пяти моделей на структуру, разрешенную X-ray. Красным цветом отмечена структура, разрешенная X-ray.
  • Затем была получена структура для той же последовательности, у которой 4 остатка подряд на конце были замещены на пролины. При этом пострадала длинная альфа-спираль. На Рисунке 3 видно, что AlphaFold не может предсказать ход N-конца после замены на пролины. Остальные части структуры тоже немного поменялись, и из-за отсутствия части контактов уверенность невысокая почти для всей структуры. AlphaFold предлагает очень разные варианты: полное изменение хода спирали (rank2, оранжевый на Рисунке 3), сохранение части альфа-спирали (rank1, 4, 5) и полное её раскручивание (rank3, светло-зеленый). Я ожидала, что структура будет компактнее и что части альфа-спирали сохранятся, в частности спираль из N-концевых остатков (хватило бы на ~3 витка). Кроме того, торсионные углы, особенно углы фи, не соответствуют углам, характерным для полипролинового участка ( Рисунок 4).
  • seqA seqA
    Рисунок 3. Выдача AlphaFold2 для второй последовательности с 4 пролинами (синий - наибольшая уверенность в позиции). Наложение пяти моделей на структуру, разрешенную X-ray. Красным цветом отмечена структура, разрешенная X-ray.
    seqA seqA
    Рисунок 4. Выдача AlphaFold2 для второй последовательности с 4 пролинами. Измерение торсионных углов.
  • Далее я получила структуру для той же последовательности, у которой 16 остатков подряд на конце были замещены на пролины. На Рисунке 5 можно заметить, что AlphaFold "уверен" в предсказании части полипролиновой спирали. В этот раз полипролиновый участок завернут в спираль с характерными углами (Рисунок 6), но в начале и конце спирали встречаюся неоптимальные углы. Правильно, что AlphaFold2 "завернул" полипролиновый участок в спираль. Но куда она должна смотреть остается непонятным, предсказания программы разнятся между собой.
  • seqA seqA
    Рисунок 5. Выдача AlphaFold2 для третьей последовательности с 16 пролинами.
    seqA seqA
    Рисунок 6. Выдача AlphaFold2 для третьей последовательности с 16 пролинами. Измерение торсионных углов.

    Я рассмотрела работу AlphaFold2 на частном примере. Он хорошо справился с предсказанием исходной последовательности, структура была близка к разрешенной X-Ray. При добавлении пролинов начались трудности, и я бы не стала здесь доверять прогнозам AlphaFold. Наверное, он пока не умеет надежно работать в "нестандартных" ситуациях. Анализ работы усложнен тем, что я нашла мало структур с паттернами из пролинов, идущих подряд. Следует отдельно рассматривать ситуации с другим числом пролинов, и пролинами,идущими не подряд. Также отдельно должны быть рассмотрены ситуации, когда полипролиновая спираль попадает в середину последовательности.

    [1] Functions of the RNA Editing Enzyme ADAR1 and Their Relevance to Human Diseases

    [2] ADAR1: “Editor-in-Chief” of Cytoplasmic Innate Immunity

    [3] The Crystal Structure of the Zβ Domain of the RNA-editing Enzyme ADAR1 Reveals Distinct Conserved Surfaces Among Z-domains

    [4] The structure and function of proline-rich regions in proteins

    Вернуться на главную