GRAND FBB

LEVSHIN VADIM

SEASON: 2025/26 LAPS: 2 STATUS: ACTIVE

Семейство белковых доменов Pfam: PF02341, RbcX protein

Анализ семейства RbcX protein: формальные данные InterPro/Pfam, описание seed-выравнивания, достоверные и недостоверные блоки, а также dotplot для белков с разной доменной архитектурой.

PF02341 — RbcX protein
Автор: Левшин Вадим Игоревич
Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова
Контактные данные: Dima.Tumanovs@yandex.ru
PF02341 RbcX IPR003435 Rubisco assembly domain family

1. Выбор семейства белковых доменов

Для выполнения задания было выбрано семейство белковых доменов PF02341 — RbcX protein. Это семейство относится к базе Pfam, которая сейчас доступна через интерфейс InterPro. Выбранное семейство подходит под условия задания: в seed-выравнивании содержится 26 последовательностей, что больше требуемых 20; кроме того, для семейства указано 20 структур, то есть больше требуемых 3. По данным InterPro API, PF02341 является Pfam-семейством типа family, интегрированным в InterPro как IPR003435.

Выбранное семейство интересно тем, что белки RbcX функционально связаны с Rubisco — рибулозо-1,5-бисфосфаткарбоксилазой/оксигеназой, одним из ключевых ферментов фиксации углекислого газа. Сам RbcX не является каталитической субъединицей Rubisco, а выполняет вспомогательную, шапероноподобную роль при сборке комплекса Rubisco. На странице PF02341 указано, что ген rbcX расположен рядом с rbcL и rbcS, кодирующими субъединицы Rubisco, и котранскрибируется с ними у Anabaena sp. CA; также указано, что RbcX помогает правильному сворачиванию/сборке Rubisco и необходим для достижения максимальной активности фермента.

2. Краткое описание выбранного семейства доменов

Общая характеристика семейства

Семейство PF02341 — RbcX protein объединяет белки RbcX. Это небольшие белки, связанные со сборкой Rubisco. Rubisco — фермент, участвующий в фиксации CO₂, поэтому RbcX можно рассматривать как вспомогательный белок фотосинтетического аппарата. Его функция интересна тем, что он влияет не на саму химическую реакцию напрямую, а на правильную сборку белкового комплекса, без которой Rubisco не достигает максимальной активности.

По аннотации InterPro/Pfam, RbcX имеет возможную шапероноподобную функцию. Белок помогает корректному формированию Rubisco при экспрессии в E. coli и нужен для максимальной активности Rubisco. Это делает семейство биологически значимым: оно связано не просто с существованием отдельного домена, а с обеспечением работы одного из важнейших ферментов фотосинтеза.

Формальные данные по семейству

ПараметрЗначениеКомментарий
AC PfamPF02341Номер семейства Pfam
ID / Name PfamRbcX proteinПолное название семейства
Short nameRbcXКороткое имя семейства
Тип PfamfamilyСемейство белков
InterPro accessionIPR003435Интегрированная запись InterPro
#SEED26Число последовательностей в seed-выравнивании
#Full alignment1038Число последовательностей в full alignment по данным entry annotations
#All / proteins3952Число белков с этим доменом в InterPro
#matches3958Число совпадений/матчей
#architectures20Число разных доменных архитектур
#3D structures20Число структур, связанных с этим семейством
Proteomes615Число протеомов, где встречается семейство
Taxa3961Число таксонов/таксономических записей по данным InterPro
AlphaFold structural models3622Число предсказанных структурных моделей AlphaFold
Representative structure3q20Crystal structure of RbcX C103A mutant from Thermosynechococcus elongatus

Данные по числам белков, архитектур, структур, proteomes, taxa, seed/full alignment и AlphaFold-моделям взяты из записи InterPro API для PF02341.

Доменная архитектура

Для семейства PF02341 в InterPro указано 20 доменных архитектур. Это означает, что домен RbcX встречается не только в одном-единственном контексте, а может входить в белки с различной организацией доменов. Наиболее простой вариант — белок, содержащий только домен RbcX. Более сложные варианты включают белки, где RbcX сочетается с другими доменами. Это важно для интерпретации dotplot: если сравнивать два белка с разными архитектурами, локальное сходство должно быть видно только в области общего домена RbcX, а остальные части белков не обязаны совпадать.

Функция семейства

RbcX связан со сборкой Rubisco. Rubisco состоит из субъединиц, которые должны правильно свернуться и собраться в функциональный комплекс. RbcX выполняет шапероноподобную функцию: он помогает формированию правильной структуры/сборки Rubisco. Поэтому RbcX можно описать как вспомогательный белок, необходимый для эффективной работы фотосинтетического аппарата.

Интересно, что белки такого типа важны не потому, что сами катализируют основную реакцию фиксации CO₂, а потому, что обеспечивают правильную сборку белкового комплекса, который эту реакцию выполняет. Таким образом, RbcX относится к белкам, функция которых проявляется на уровне организации других белков.

3D-структура

Для семейства PF02341 указано 20 структур. В качестве репрезентативной структуры InterPro указывает 3q20, описанную как кристаллическая структура мутанта RbcX C103A из Thermosynechococcus elongatus. Это подтверждает, что семейство не является только вычислительно предсказанным: для него существуют экспериментальные структурные данные. Наличие структур позволяет связывать консервативные участки выравнивания с пространственной организацией белка.

Таксономическая распространённость

Семейство RbcX связано прежде всего с организмами, у которых есть Rubisco и фотосинтетический аппарат. В seed-выравнивании PF02341 представлены в основном цианобактерии и близкие к ним фотосинтетические организмы. Это хорошо согласуется с функцией белка: RbcX участвует в сборке Rubisco, а Rubisco является центральным ферментом фиксации CO₂.

В InterPro для PF02341 указано 615 протеомов и 3961 таксономическая запись, что показывает достаточно широкое распространение семейства. При этом биологически ожидаемо, что основная представленность должна приходиться на бактерии, прежде всего цианобактерии, а также на фотосинтетические эукариоты/органелльные линии, связанные с фотосинтезом.

Таблица 11-1. Формальные данные о семействе PF02341

ПолеИнформацияКомментарии
AC PfamPF02341Идентификатор семейства в Pfam
ID PfamRbcX proteinПолное название выбранного семейства
#SEED26Размер курируемого seed-выравнивания
#All3952Общее число белков, в которых найден домен PF02341
#Full alignment1038Размер full-выравнивания семейства
#SW9Число записей из Swiss-Prot/Reviewed
#architectures20Разнообразие доменных архитектур с участием RbcX
#3D20Количество доступных структурных данных
#Eukaryota1513Представленность семейства у эукариот
#Archaea0Представители среди архей отсутствуют
#Bacteria2437Основная бактериальная представленность семейства

3. Описание seed-выравнивания PF02341

Для анализа было использовано seed-выравнивание семейства PF02341 — RbcX protein, открытое в JalView. В seed-выравнивании содержится 26 последовательностей. По данным InterPro entry annotations, seed alignment для PF02341 включает 26 последовательностей.

При анализе выравнивания были выделены три типа участков:

  1. максимальный достоверный блок, включающий все последовательности;
  2. достоверный блок, включающий не все последовательности, а только их подмножество;
  3. участок, где нет оснований считать выравнивание эволюционно достоверным.

Для каждого случая в JalView был создан отдельный вид выравнивания.

3.1. Максимальный достоверный блок для всех последовательностей

Для всех 26 последовательностей был выбран блок в колонках 17–45 выравнивания. Этот участок был проверен экспортом выделения в FASTA. В полученном блоке нет ни одного гэпа, то есть он соответствует требованию “блок без гэпов”.

Фрагменты последовательностей в этом блоке
>K9SVB9_9SYNE/17-45
YLTYQAVKVVISQLSETNPPLAIWLSNFS
>K9TDS4_9CYAN/47-75
YLTYQAMRIVVSQLNETNPPLAYWLQNFS
>K9W591_9CYAN/17-45
YLTYQAVRIILTQLTETNPPLAYWLSNFS
>B2J8T3_NOSP7/17-45
YLTYQALRTVLAQLGETNPPLELWLHNFS
>K9U8A9_CHRTP/17-45
YLTYQAVRTVLAQIGETNPPLALWLHRFS
>K9RFS7_9CYAN/17-45
YLTYQAVRTVSAQINETNPYVAAWLHRFS
>K9WF66_9CYAN/17-45
YMTYQALRVVMEQLSETDPPQSLWLHGFS
>K9RT71_SYNP3/17-45
YLTYQAVRTVIAQLDETDPPRSLWLQRFT
>RBCX_THEVB/17-45
YLTYQAVRTVIGQLAETDPPRSLWLHQFT
>Q2JIP4_SYNJB/17-45
YLTYQAMRTVLAQLSETDPPRALWLQQFS
>B0CCC0_ACAM1/17-45
YLTYQAAKLVVTQLYETNPGLGIWLSEFS
>B7K7P2_GLOC7/17-45
YLTYQAVRTIIDQLSETNPNQAIWLSQYS
>K9XPC6_STAC7/17-45
YLTYQAVRTIISQLSETNPNQAIWLSHYS
>B7JVW6_RIPO1/17-45
YLTYQAVRTIINQLSETNPSQALWLRQYT
>B1WXH2_CROS5/17-45
YLTYQAVRIILDQLSETNPKQAIWLRQYT
>K9YGL0_CYASC/17-45
YLTYQAVKLIIEQLTETNPSLAIWLREFS
>K9Z232_CYAAP/17-45
YLTFQAVKIIINQLTETNPRQAIWLTNYS
>D8RC91_SELML/20-48
FFTYIAVKIVASQLEDYNKEAYDDLMKFL
>B9RXG0_RICCO/67-95
FFTYVAVRIVTAQLQSYNPEAYEELMGFL
>K9YFK9_HALP7/17-45
YLTYQAVRTILDQLSETNPTQAIWLRQFS
>RBCX_SYNY3/19-47
YLTYQAVLRIQSELGETNPPQAIWLNQYL
>K9SEA2_9CYAN/25-53
YLTYQAVRVIVNQLNETDPPRGHWLSSFS
>Q7NIM6_GLOVI/17-45
YLTYQAVRVVLDQLRETDPQRAIWFNQFS
>U5QH29_GLOK1/17-45
YLTYQAIRVVAAQLRETDPPRAVWFSQFS
>K9UBW6_CHAP6/17-45
YLTYQAVQSVLAELTEMNPPLALWLRGFS
>K9SF09_9CYAN/17-45
YLTYQAMRTVVSQLQQTNPPLAHWLSGFS

В этом блоке первая позиция функционально консервативна: у большинства последовательностей находится Y, а у двух последовательностей — F. Оба остатка относятся к ароматическим аминокислотам, поэтому эту позицию можно считать функционально консервативной как [FY]. Внутри блока хорошо заметны консервативные элементы, например мотивы, близкие к TYQA, область с QL, участок TNP, а также участок около WL.

3.2. Достоверный блок для подмножества последовательностей

Второй достоверный блок был выбран не для всех последовательностей, а только для подмножества из двух последовательностей:

  • B9RXG0_RICCO
  • D8RC91_SELML
Выбранный блок
>B9RXG0_RICCO/122-139
LRILEVRSAYCKNDFEWD
>D8RC91_SELML/75-92
LRILEVRAAYANNDFEWE

Этот блок имеет длину 18 а.к.о. и не содержит гэпов. Он начинается с одинакового остатка L. В начале блока хорошо сохраняется мотив LRILEVR. В конце блока находится функционально сходная кислая позиция: у одной последовательности D, у другой E. Остатки D и E относятся к кислым аминокислотам, поэтому последнюю позицию можно рассматривать как функционально консервативную [DE].

Блок не был выбран для всех последовательностей, потому что в этой области выравнивания остальные белки имеют иную картину и/или соседние гэпы. Однако для двух выбранных последовательностей этот фрагмент выглядит как хорошо сопоставимый участок: он без гэпов, содержит несколько полностью консервативных позиций и начинается/заканчивается консервативными или функционально консервативными остатками.

3.3. Участок, где выравнивание недостоверно

В качестве участка, где нет оснований считать выравнивание эволюционно достоверным, был выбран фрагмент вокруг локальной вставки/делеции. В этом участке две последовательности имеют полноценный пятибуквенный фрагмент, тогда как у большинства остальных последовательностей между двумя остатками стоят три гэпа.

Фрагмент недостоверного участка
>B9RXG0_RICCO/114-118
SSRHK
>D8RC91_SELML/67-71
SGRHK
>K9SVB9_9SYNE/64-65
E---Q
>K9TDS4_9CYAN/94-95
K---P
>K9W591_9CYAN/64-65
K---Q
>B2J8T3_NOSP7/63-64
K---P
>K9U8A9_CHRTP/64-65
K---P
>K9RFS7_9CYAN/64-65
K---P
>K9WF66_9CYAN/64-65
K---Q
>K9RT71_SYNP3/64-65
K---Q
>RBCX_THEVB/64-65
Q---P
>Q2JIP4_SYNJB/64-65
R---P
>B0CCC0_ACAM1/64-65
N---R
>B7K7P2_GLOC7/64-65
N---K
>K9XPC6_STAC7/64-65
N---K
>B7JVW6_RIPO1/64-65
N---K
>B1WXH2_CROS5/64-65
D---K
>K9YGL0_CYASC/64-65
N---K
>K9Z232_CYAAP/64-65
N---K
>K9YFK9_HALP7/64-65
R---K
>RBCX_SYNY3/66-67
N---K
>K9SEA2_9CYAN/72-73
N---Q
>Q7NIM6_GLOVI/64-65
D---P
>U5QH29_GLOK1/64-65
N---P
>K9UBW6_CHAP6/64-65
N---Q
>K9SF09_9CYAN/64-65
N---Q

Этот участок нельзя считать достоверным эволюционным блоком для всех последовательностей. У двух последовательностей присутствуют фрагменты SSRHK и SGRHK, а у большинства остальных последовательностей наблюдается схема вида E—Q, K—P, N—K, D—P и т.п. Центральные три позиции представлены гэпами почти у всех последовательностей. Это говорит о локальной вставке у двух последовательностей или о локальной делеции у остальных.

В таком участке невозможно уверенно утверждать, что все аминокислоты в колонках происходят от одних и тех же ancestral-позиций. Скорее всего, алгоритм выравнивания формально расположил остатки и гэпы между соседними более консервативными областями. Поэтому данный фрагмент не следует использовать для вывода о гомологичных позициях.

Таблица 11-3. Описание seed-выравнивания

ПунктИнформацияКомментарий
Выравнивание seed26 последовательностейSeed-выравнивание PF02341, открытое в JalView
Максимальный достоверный блок, включающий все последовательности, МДБ-allКолонки 17–45Входят все 26 последовательностей; блок без гэпов
100% / функционально консервативные колонки в МДБ-allНачальная позиция: [FY]; внутри блока хорошо сохраняются мотивы TYQA, QL, TNP, WLПервая позиция функционально консервативна: Y/F, ароматические а.к.; внутри блока несколько сильных консервативных участков
Максимальный достоверный блок, включающий не все последовательности, МДБ-notAllПодмножество: B9RXG0_RICCO и D8RC91_SELML; фрагменты B9RXG0_RICCO/122–139 и D8RC91_SELML/75–92Блок без гэпов, длина 18 а.к.о.; соответствует области около 72–89 в JalView-виде
100% / функционально консервативные колонки в МДБ-notAllНачало: L; мотив LRILEVR; конец: [DE]У двух последовательностей хорошо сохраняется начало блока и несколько внутренних позиций; D/E — кислые аминокислоты
Участок, где выравнивание недостоверноОбласть с фрагментами SSRHK, SGRHK против E—Q, K—P, N—K и т.п.У двух последовательностей есть вставка из трёх аминокислот, у большинства остальных — гэпы; участок не следует интерпретировать как достоверное эволюционное выравнивание

4. Карта локального сходства двух белков с одним доменом, но разной доменной архитектурой

Для построения карты локального сходства были выбраны две полные белковые последовательности, содержащие домен PF02341 / RbcX, но имеющие разные доменные архитектуры.

Первый белок — O86097, длиной 135 а.к.о. Он представляет наиболее распространённую архитектуру, состоящую только из одного домена PF02341 / RbcX. В InterPro указано, что с такой архитектурой найдено 3905 белков.

Второй белок — A0A078HZT8, длиной 403 а.к.о. Он представляет другую архитектуру: PF04398 / DUF538 + PF02341 / RbcX. То есть в этом белке, кроме домена RbcX, присутствует дополнительный домен DUF538. В InterPro указано, что с такой архитектурой найдено 8 белков.

Полные последовательности этих белков были сравнены с помощью NCBI BLASTp, режим Align two or more sequences. После выполнения BLAST была построена карта локального сходства — Dot Plot.

Таблица 11-3. Белки, использованные для построения dotplot

ПолеБелок 1Белок 2
Идентификатор белкаO86097A0A078HZT8
Длина белка135 а.к.о.403 а.к.о.
Доменная архитектураPF02341PF04398 — PF02341
Домен 1RbcXDUF538
Домен 2отсутствуетRbcX
Число белков с такой архитектурой39058
Общий доменPF02341 / RbcXPF02341 / RbcX
Метод сравненияBLASTp, Align two or more sequencesBLASTp, Align two or more sequences

Файл проекта Jalview: 11pr.jvp

Иллюстрация

Комментарий к dotplot

На карте локального сходства видно несколько диагональных участков, но они занимают не всю матрицу. Это означает, что две последовательности не являются сходными по всей длине. Такой результат ожидаем, потому что белки имеют разную доменную архитектуру: короткий белок O86097 состоит только из домена RbcX, а более длинный белок A0A078HZT8 содержит дополнительный N-концевой домен DUF538 и домен RbcX ближе к C-концу.

На dotplot основное сходство наблюдается между участком короткого белка O86097 и C-концевой частью длинного белка A0A078HZT8, примерно в районе координат 300–360 по оси длинного белка. Именно там в архитектуре второго белка расположен домен RbcX. Следовательно, диагональные линии на карте соответствуют локальному сходству общего домена PF02341 / RbcX.

При этом в области N-концевой части белка A0A078HZT8, где расположен домен PF04398 / DUF538, выраженного сходства с белком O86097 нет. Это логично, потому что у короткого белка O86097 такого домена нет. Таким образом, dotplot подтверждает, что сходство между выбранными белками связано не со всей длиной последовательностей, а именно с общим доменом RbcX.