Практикум 7. ColabFold¶
Алимова Альфия
Задание B. Спирали¶
from IPython.display import Image
#variant: B1
#seqA: GSHMASLDMAEIKEKICDYLFNVSDSSALNLAKNIGLTKARDINAVLIDMERQGDVYRQGTTPPIWHLTDKKRERMQIK
#seqB: GSHMASLDMAEIPPPPCDYLFNVSDSSALNLAKNIGLTKARDINAVLIDMERQGDVYRQGTTPPIWHLTDKKRERMQIK
#seqC: GSHMAPPPPPPPPPPPPPPPPPPSDSSALNLAKNIGLTKARDINAVLIDMERQGDVYRQGTTPPIWHLTDKKRERMQIK
Даны три последовательности: seqA-C. seqA - исходная последовательность, судя по всему, потому что остальные две - модификации от неё. В них многие остатки заменены на пролин (P), который, как известно, нарушает структуру α-спирали и вызывает изгиб цепи. Слишком много пролинов подряд в последовательности приводит к образованию полипролиновой спирали. Следовательно, мы ожидаем, что такая спираль может появиться.
Запустим ColabFold (AlphaFold на Google Colab) для seqA. По итогу, AlphaFold выдал пять моделей с рангами от 1 до 5. Алгоритм хорошо, судя по результатам, предсказал модель заданного белка, за исключением N- и C-конца (по шкале pIDDT). Рассмотрим модель с рангом 1 (наиболее правдоподобной) (ссылка на сессию).
Image("pr7/B_rank1_structure.png", width=400)
Рис.1. Структура модели белка seqA (покраска по элементам вторичной структуры: красный - α-спирали, жёлтый - β-листы, зелёный - выпетливания).
Во всех моделях одинаковая архитектура: α1-α2-α3-β1-β2-α4, однако длина выпетливаний на N-конце различна.
Интересно было посмотреть, а что это вообще за белок, и есть ли возможная структура в PDB. Для этого загнали seqA в BLAST и нашли структуру 1XMK - zα-домен дцРНК-специфичной аденозиндезаминазы человека, разрешённой методом рентгеноструктурного анализа с хорошим разрешением 0.97 Å. После этого провели выравнивание структур, которое представлено на рис.2. Видим, что расположение элементов вторичной структуры совпадают, но длина α-спиралей на N- и C-концах различается: AlphaFold предсказал более длинные спирали. Также в РСА-структуре есть маленький β-тяж между первыми двумя спиралями, чего нейросетка не предсказала, хотя водородные связи между атомами остова у 1XMK и β2-тяжем присутствуют. N-концы α3-спиралей смотрят в двух структурах по-разному.
ДцРНК-специфичная аденозиндезаминаза (Uniprot AC: P55265) - фермент, катализирующий реакцию гидролитической дезаминирования аденозина до инозина в двухцепочечной РНК (РНК-редактирование с A на I). Это может повлиять на экспрессию гена и его функции: во время трансляции с молекулы мРНК если произойдёт дезаминирование аденозина до инозина, то может измениться и аминокислотная последовательность, потому что рибосома читает инозин как гуанозин. Может изменится процесс сплайсинга пре-мРНК, стабильность РНК и гена в случае РНК-вирусов (изменяется последовательность при репликации вируса). У данного фермента много субстратов: человеческих (например, GABRA3 - рецептор ГАМК) и вирусных РНК (например, вирус гепатита С (HCV)).
Image("pr7/B_align_blast.png", width=500)
Рис.2. Выравнивание структур seqA (покрашен светло-зелёным цветом) и 1XMK (покрашен синий цветом) (ссылка на сессию).
Image("pr7/B_rank1_diff.png", width=500)
Рис.3. Отличия seqA (α-спирали выделены голубым цветом, β-тяжи - малиновым, выпетливания - бежевым) от seqB (фрагмент выделен зелёным цветом) и seqC (фрагмент выделен жёлтым цветом).
Теперь сделаем предсказания для seqB и seqC и посмотрим, правильно ли AlphaFold сделал модели.
Для seqB (рис.3) AlphaFold предсказал ту же архитектуру с тем лишь исключением, что длинная первая спираль seqA существенно укоротилась из-за присутствия пролинов в структуре, которые нарушают α-спираль.
Image("pr7/B_seqB.png", width=700)
Рис.4. Структура модели белка seqB (покраска по элементам вторичной структуры). Четыре пролина окрашены голубым цветом.
Из четырёх подряд идущих пролинов лишь последний входит в α-спираль, однако, рассмотрев поближе, заметим, что у него появились необычные связи (треугольники из лекции про плохие структуры (рис.4А)), но со сменой модели (выбрана последняя, пятая, модель, так как во всех остальных этот треугольник присутствует) они исчезают (рис.4В) (ссылка на сессию). Однако такого количества пролинов не хватает для образования полипролиновой спирали.
Image("pr7/B_seqB_site.png", width=700)
Рис.5. Последний пролин из четвёрки по направлению от N- к С-концу (сиреневым цветом выделен): с треугольником и связью между его азотом и кислородом соседнего пролина (что само по себе вызывает вопросы) (А), без него (В). Четыре пролина окрашены голубым цветом.
Наконец, предскажем структуру в случае полипролинового участка в белковой цепи (seqC) (рис.6) (ссылка на сессию). Как и ожидалось, одна из α-спиралей пропала, но появилась так называемая "полипролиновая спираль" - несколько пролинов подряд, однако остаток пролина не образует водородных связей, только атом кислорода остова, но у него нет партнёров по связи в данном случае. Степень уверенности в предсказании по шкале pIDDT уменьшается в случае seqC: seqA, за исключением концов, была окрашена в синий цвет (высокая степень уверенности в предсказании), а у seqC осталось мало синих участков.
Image("pr7/B_seqC.png", width=700)
Рис.6. Полипролиновая спираль по направлению от N- к С-концу (голубым цветом выделена) в seqC.
Вывод: AlphaFold неплохо справился с задачей предсказания структуры, но и он может допустить ошибку, даже в разметке связей между остатками. Алгоритм не всегда может точно определить α-спирали (то он их укорачивает, то наоборот). Использовать AlphaFold можно, но надо критически относиться к его выдаче и перепроверять экспериментально структуру белка.
Дополнительные графики (с выдачи AlphaFold)¶
В данном разделе представлены объединённые графики (1-3) для всех трёх случаев (seqA-C):
- Распределение количества последовательностей для предсказания позиций (рис.7): заметим, что при замене нескольких аминокислотных остатков на пролины степень уверенности в предсказании конкретной позиции уменьшается, есть провал в последнем случае (С-конец цепи, где и начиналась полипролиновая спираль с шестой позиции). До десятой позиции последовательности мало выравнивались.
- Карта PAE (ожидаемая ошибка в позиции на остатке х, если предсказанная и реальная структура выровнились на остаток у) (рис.8): при добавлении пролинов увеличивается количество ошибок. Если смотреть по моделям в каждом случае, то эти карты примерно похожи.
- Качество по позициям (рис.9): при добавлении пролинов качество падает, и возможно появление минимума.
Image("pr7/graphs_cov.png", width=1100)
Рис.7. Распределение количества последовательностей для предсказания позиций (окраска по шкале pLDDT) в разных случаях: seqA - A, seqB - B, seqC - C.
Image("pr7/graphs_pae.png", width=1000)
Рис.8. Карта взаимодействий в разных случаях и ранжированных моделях: seqA - A, seqB - B, seqC - C.
Image("pr7/graphs_piddt.png", width=1000)
Рис.9. Качество по позициям в разных случаях: seqA - A, seqB - B, seqC - C.
Задание С. Протеазы¶
#variant: C1
#Uniprot AC: P00784
#Substrate Sequence (MEROPS): AIPMSIPP (ингибитор α-1-пептидазы (P01009))
Здесь мы уже работаем с предсказанием структуры фермента (папаин) и его субстрата (в БД MEROPS он числится как физиологически релевантный). Папаин (Uniprot AC: P00784) - цистеиновая протеаза, выделенная из папайи (Carica papaya) и осуществляющая реакцию гидролиза пептидной связи (EC:3.4.22.2). У данного фермента широкая субстратная специфичность, но больше всего предпочитает, чтобы в P2-позиции субстрата находилась аминокислота с длинной гидрофобной цепью. Папаин вызывает аллергическую реакцию у человека[1], но, тем не менее, может применяться в косметологии[2] в качестве отшелушивающего средства.
Запустим ColabFold и посмотрим, как хорошо он предскажет структуру фермент-субстратного комплекса.
Для сравнения возьмём структуру папаина из БД PDB (ID: 3IMA) после того, как загнали последовательность белка в BLAST (отличия: нет Cys - вместо него пептидный линкер (OCS) => нет каталитической триады, чтобы не произошло автокатализа).
Image("pr7/C_align.png", width=900)
Рис.10. Выравнивание структур предсказанного папаина (бежевый) с ингибитором (малиновый) на 3IMA (зелёный) с ингибитором тароцистатином (голубой).
Видно, что пептидный субстрат расположен недалеко от активного центра, образованного остатками Cys-158, His-292 и Asn-308 (рис.10) (информация об активном центре из Uniprot), как и тароцистетин. Но этот пептид практически упирается в активный центр, из-за чего нарисовались неправильные связи (рис.11С). В остальных моделях наблюдается подобная же ситуация (ссылка на сессию).
Этот пептидный субстрат является частью α1-антитрипсина - ингибитора сериновых протеаз, в то время как папаин - цистеиновая протеаза. Разрезание происходит между метионином и серином, и данному процессу ничего не мешает, но слишком близкое расположение пептида к активному центру начинает сбивать с толку программу, которая начинает рисовать несуществующие связи.
Поэтому AlphaFold плохо предсказал фермент-субстратный комплекс, и его выдачи необходимо проверять при помощи взятия структур комплексов с субстратами, экспериментально полученных и с качественнно аннотированными взаимодействиями.
Image("pr7/C_active_sites.png", width=700)
Рис.11. Каталитическая триада в активном центре фермента, предсказанного папаина (бежевый, A) и полученного в результате РСА 3IMA (зелёный, B), расположение субстрата (малиновый, C) относительно него.