1. Выбор семейства белковых доменов
Для выполнения задания было выбрано семейство белковых доменов PF02341 — RbcX protein. Это семейство относится к базе Pfam, которая сейчас доступна через интерфейс InterPro. Выбранное семейство подходит под условия задания: в seed-выравнивании содержится 26 последовательностей, что больше требуемых 20; кроме того, для семейства указано 20 структур, то есть больше требуемых 3. По данным InterPro API, PF02341 является Pfam-семейством типа family, интегрированным в InterPro как IPR003435.
Выбранное семейство интересно тем, что белки RbcX функционально связаны с Rubisco — рибулозо-1,5-бисфосфаткарбоксилазой/оксигеназой, одним из ключевых ферментов фиксации углекислого газа. Сам RbcX не является каталитической субъединицей Rubisco, а выполняет вспомогательную, шапероноподобную роль при сборке комплекса Rubisco. На странице PF02341 указано, что ген rbcX расположен рядом с rbcL и rbcS, кодирующими субъединицы Rubisco, и котранскрибируется с ними у Anabaena sp. CA; также указано, что RbcX помогает правильному сворачиванию/сборке Rubisco и необходим для достижения максимальной активности фермента.
2. Краткое описание выбранного семейства доменов
Общая характеристика семейства
Семейство PF02341 — RbcX protein объединяет белки RbcX. Это небольшие белки, связанные со сборкой Rubisco. Rubisco — фермент, участвующий в фиксации CO₂, поэтому RbcX можно рассматривать как вспомогательный белок фотосинтетического аппарата. Его функция интересна тем, что он влияет не на саму химическую реакцию напрямую, а на правильную сборку белкового комплекса, без которой Rubisco не достигает максимальной активности.
По аннотации InterPro/Pfam, RbcX имеет возможную шапероноподобную функцию. Белок помогает корректному формированию Rubisco при экспрессии в E. coli и нужен для максимальной активности Rubisco. Это делает семейство биологически значимым: оно связано не просто с существованием отдельного домена, а с обеспечением работы одного из важнейших ферментов фотосинтеза.
Формальные данные по семейству
| Параметр | Значение | Комментарий |
|---|---|---|
| AC Pfam | PF02341 | Номер семейства Pfam |
| ID / Name Pfam | RbcX protein | Полное название семейства |
| Short name | RbcX | Короткое имя семейства |
| Тип Pfam | family | Семейство белков |
| InterPro accession | IPR003435 | Интегрированная запись InterPro |
| #SEED | 26 | Число последовательностей в seed-выравнивании |
| #Full alignment | 1038 | Число последовательностей в full alignment по данным entry annotations |
| #All / proteins | 3952 | Число белков с этим доменом в InterPro |
| #matches | 3958 | Число совпадений/матчей |
| #architectures | 20 | Число разных доменных архитектур |
| #3D structures | 20 | Число структур, связанных с этим семейством |
| Proteomes | 615 | Число протеомов, где встречается семейство |
| Taxa | 3961 | Число таксонов/таксономических записей по данным InterPro |
| AlphaFold structural models | 3622 | Число предсказанных структурных моделей AlphaFold |
| Representative structure | 3q20 | Crystal structure of RbcX C103A mutant from Thermosynechococcus elongatus |
Данные по числам белков, архитектур, структур, proteomes, taxa, seed/full alignment и AlphaFold-моделям взяты из записи InterPro API для PF02341.
Доменная архитектура
Для семейства PF02341 в InterPro указано 20 доменных архитектур. Это означает, что домен RbcX встречается не только в одном-единственном контексте, а может входить в белки с различной организацией доменов. Наиболее простой вариант — белок, содержащий только домен RbcX. Более сложные варианты включают белки, где RbcX сочетается с другими доменами. Это важно для интерпретации dotplot: если сравнивать два белка с разными архитектурами, локальное сходство должно быть видно только в области общего домена RbcX, а остальные части белков не обязаны совпадать.
Функция семейства
RbcX связан со сборкой Rubisco. Rubisco состоит из субъединиц, которые должны правильно свернуться и собраться в функциональный комплекс. RbcX выполняет шапероноподобную функцию: он помогает формированию правильной структуры/сборки Rubisco. Поэтому RbcX можно описать как вспомогательный белок, необходимый для эффективной работы фотосинтетического аппарата.
Интересно, что белки такого типа важны не потому, что сами катализируют основную реакцию фиксации CO₂, а потому, что обеспечивают правильную сборку белкового комплекса, который эту реакцию выполняет. Таким образом, RbcX относится к белкам, функция которых проявляется на уровне организации других белков.
3D-структура
Для семейства PF02341 указано 20 структур. В качестве репрезентативной структуры InterPro указывает 3q20, описанную как кристаллическая структура мутанта RbcX C103A из Thermosynechococcus elongatus. Это подтверждает, что семейство не является только вычислительно предсказанным: для него существуют экспериментальные структурные данные. Наличие структур позволяет связывать консервативные участки выравнивания с пространственной организацией белка.
Таксономическая распространённость
Семейство RbcX связано прежде всего с организмами, у которых есть Rubisco и фотосинтетический аппарат. В seed-выравнивании PF02341 представлены в основном цианобактерии и близкие к ним фотосинтетические организмы. Это хорошо согласуется с функцией белка: RbcX участвует в сборке Rubisco, а Rubisco является центральным ферментом фиксации CO₂.
В InterPro для PF02341 указано 615 протеомов и 3961 таксономическая запись, что показывает достаточно широкое распространение семейства. При этом биологически ожидаемо, что основная представленность должна приходиться на бактерии, прежде всего цианобактерии, а также на фотосинтетические эукариоты/органелльные линии, связанные с фотосинтезом.
Таблица 11-1. Формальные данные о семействе PF02341
| Поле | Информация | Комментарии |
|---|---|---|
| AC Pfam | PF02341 | Идентификатор семейства в Pfam |
| ID Pfam | RbcX protein | Полное название выбранного семейства |
| #SEED | 26 | Размер курируемого seed-выравнивания |
| #All | 3952 | Общее число белков, в которых найден домен PF02341 |
| #Full alignment | 1038 | Размер full-выравнивания семейства |
| #SW | 9 | Число записей из Swiss-Prot/Reviewed |
| #architectures | 20 | Разнообразие доменных архитектур с участием RbcX |
| #3D | 20 | Количество доступных структурных данных |
| #Eukaryota | 1513 | Представленность семейства у эукариот |
| #Archaea | 0 | Представители среди архей отсутствуют |
| #Bacteria | 2437 | Основная бактериальная представленность семейства |
3. Описание seed-выравнивания PF02341
Для анализа было использовано seed-выравнивание семейства PF02341 — RbcX protein, открытое в JalView. В seed-выравнивании содержится 26 последовательностей. По данным InterPro entry annotations, seed alignment для PF02341 включает 26 последовательностей.
При анализе выравнивания были выделены три типа участков:
- максимальный достоверный блок, включающий все последовательности;
- достоверный блок, включающий не все последовательности, а только их подмножество;
- участок, где нет оснований считать выравнивание эволюционно достоверным.
Для каждого случая в JalView был создан отдельный вид выравнивания.
3.1. Максимальный достоверный блок для всех последовательностей
Для всех 26 последовательностей был выбран блок в колонках 17–45 выравнивания. Этот участок был проверен экспортом выделения в FASTA. В полученном блоке нет ни одного гэпа, то есть он соответствует требованию “блок без гэпов”.
Фрагменты последовательностей в этом блоке
>K9SVB9_9SYNE/17-45 YLTYQAVKVVISQLSETNPPLAIWLSNFS >K9TDS4_9CYAN/47-75 YLTYQAMRIVVSQLNETNPPLAYWLQNFS >K9W591_9CYAN/17-45 YLTYQAVRIILTQLTETNPPLAYWLSNFS >B2J8T3_NOSP7/17-45 YLTYQALRTVLAQLGETNPPLELWLHNFS >K9U8A9_CHRTP/17-45 YLTYQAVRTVLAQIGETNPPLALWLHRFS >K9RFS7_9CYAN/17-45 YLTYQAVRTVSAQINETNPYVAAWLHRFS >K9WF66_9CYAN/17-45 YMTYQALRVVMEQLSETDPPQSLWLHGFS >K9RT71_SYNP3/17-45 YLTYQAVRTVIAQLDETDPPRSLWLQRFT >RBCX_THEVB/17-45 YLTYQAVRTVIGQLAETDPPRSLWLHQFT >Q2JIP4_SYNJB/17-45 YLTYQAMRTVLAQLSETDPPRALWLQQFS >B0CCC0_ACAM1/17-45 YLTYQAAKLVVTQLYETNPGLGIWLSEFS >B7K7P2_GLOC7/17-45 YLTYQAVRTIIDQLSETNPNQAIWLSQYS >K9XPC6_STAC7/17-45 YLTYQAVRTIISQLSETNPNQAIWLSHYS >B7JVW6_RIPO1/17-45 YLTYQAVRTIINQLSETNPSQALWLRQYT >B1WXH2_CROS5/17-45 YLTYQAVRIILDQLSETNPKQAIWLRQYT >K9YGL0_CYASC/17-45 YLTYQAVKLIIEQLTETNPSLAIWLREFS >K9Z232_CYAAP/17-45 YLTFQAVKIIINQLTETNPRQAIWLTNYS >D8RC91_SELML/20-48 FFTYIAVKIVASQLEDYNKEAYDDLMKFL >B9RXG0_RICCO/67-95 FFTYVAVRIVTAQLQSYNPEAYEELMGFL >K9YFK9_HALP7/17-45 YLTYQAVRTILDQLSETNPTQAIWLRQFS >RBCX_SYNY3/19-47 YLTYQAVLRIQSELGETNPPQAIWLNQYL >K9SEA2_9CYAN/25-53 YLTYQAVRVIVNQLNETDPPRGHWLSSFS >Q7NIM6_GLOVI/17-45 YLTYQAVRVVLDQLRETDPQRAIWFNQFS >U5QH29_GLOK1/17-45 YLTYQAIRVVAAQLRETDPPRAVWFSQFS >K9UBW6_CHAP6/17-45 YLTYQAVQSVLAELTEMNPPLALWLRGFS >K9SF09_9CYAN/17-45 YLTYQAMRTVVSQLQQTNPPLAHWLSGFS
В этом блоке первая позиция функционально консервативна: у большинства последовательностей находится Y, а у двух последовательностей — F. Оба остатка относятся к ароматическим аминокислотам, поэтому эту позицию можно считать функционально консервативной как [FY]. Внутри блока хорошо заметны консервативные элементы, например мотивы, близкие к TYQA, область с QL, участок TNP, а также участок около WL.
3.2. Достоверный блок для подмножества последовательностей
Второй достоверный блок был выбран не для всех последовательностей, а только для подмножества из двух последовательностей:
- B9RXG0_RICCO
- D8RC91_SELML
Выбранный блок
>B9RXG0_RICCO/122-139 LRILEVRSAYCKNDFEWD >D8RC91_SELML/75-92 LRILEVRAAYANNDFEWE
Этот блок имеет длину 18 а.к.о. и не содержит гэпов. Он начинается с одинакового остатка L. В начале блока хорошо сохраняется мотив LRILEVR. В конце блока находится функционально сходная кислая позиция: у одной последовательности D, у другой E. Остатки D и E относятся к кислым аминокислотам, поэтому последнюю позицию можно рассматривать как функционально консервативную [DE].
Блок не был выбран для всех последовательностей, потому что в этой области выравнивания остальные белки имеют иную картину и/или соседние гэпы. Однако для двух выбранных последовательностей этот фрагмент выглядит как хорошо сопоставимый участок: он без гэпов, содержит несколько полностью консервативных позиций и начинается/заканчивается консервативными или функционально консервативными остатками.
3.3. Участок, где выравнивание недостоверно
В качестве участка, где нет оснований считать выравнивание эволюционно достоверным, был выбран фрагмент вокруг локальной вставки/делеции. В этом участке две последовательности имеют полноценный пятибуквенный фрагмент, тогда как у большинства остальных последовательностей между двумя остатками стоят три гэпа.
Фрагмент недостоверного участка
>B9RXG0_RICCO/114-118 SSRHK >D8RC91_SELML/67-71 SGRHK >K9SVB9_9SYNE/64-65 E---Q >K9TDS4_9CYAN/94-95 K---P >K9W591_9CYAN/64-65 K---Q >B2J8T3_NOSP7/63-64 K---P >K9U8A9_CHRTP/64-65 K---P >K9RFS7_9CYAN/64-65 K---P >K9WF66_9CYAN/64-65 K---Q >K9RT71_SYNP3/64-65 K---Q >RBCX_THEVB/64-65 Q---P >Q2JIP4_SYNJB/64-65 R---P >B0CCC0_ACAM1/64-65 N---R >B7K7P2_GLOC7/64-65 N---K >K9XPC6_STAC7/64-65 N---K >B7JVW6_RIPO1/64-65 N---K >B1WXH2_CROS5/64-65 D---K >K9YGL0_CYASC/64-65 N---K >K9Z232_CYAAP/64-65 N---K >K9YFK9_HALP7/64-65 R---K >RBCX_SYNY3/66-67 N---K >K9SEA2_9CYAN/72-73 N---Q >Q7NIM6_GLOVI/64-65 D---P >U5QH29_GLOK1/64-65 N---P >K9UBW6_CHAP6/64-65 N---Q >K9SF09_9CYAN/64-65 N---Q
Этот участок нельзя считать достоверным эволюционным блоком для всех последовательностей. У двух последовательностей присутствуют фрагменты SSRHK и SGRHK, а у большинства остальных последовательностей наблюдается схема вида E—Q, K—P, N—K, D—P и т.п. Центральные три позиции представлены гэпами почти у всех последовательностей. Это говорит о локальной вставке у двух последовательностей или о локальной делеции у остальных.
В таком участке невозможно уверенно утверждать, что все аминокислоты в колонках происходят от одних и тех же ancestral-позиций. Скорее всего, алгоритм выравнивания формально расположил остатки и гэпы между соседними более консервативными областями. Поэтому данный фрагмент не следует использовать для вывода о гомологичных позициях.
Таблица 11-3. Описание seed-выравнивания
| Пункт | Информация | Комментарий |
|---|---|---|
| Выравнивание seed | 26 последовательностей | Seed-выравнивание PF02341, открытое в JalView |
| Максимальный достоверный блок, включающий все последовательности, МДБ-all | Колонки 17–45 | Входят все 26 последовательностей; блок без гэпов |
| 100% / функционально консервативные колонки в МДБ-all | Начальная позиция: [FY]; внутри блока хорошо сохраняются мотивы TYQA, QL, TNP, WL | Первая позиция функционально консервативна: Y/F, ароматические а.к.; внутри блока несколько сильных консервативных участков |
| Максимальный достоверный блок, включающий не все последовательности, МДБ-notAll | Подмножество: B9RXG0_RICCO и D8RC91_SELML; фрагменты B9RXG0_RICCO/122–139 и D8RC91_SELML/75–92 | Блок без гэпов, длина 18 а.к.о.; соответствует области около 72–89 в JalView-виде |
| 100% / функционально консервативные колонки в МДБ-notAll | Начало: L; мотив LRILEVR; конец: [DE] | У двух последовательностей хорошо сохраняется начало блока и несколько внутренних позиций; D/E — кислые аминокислоты |
| Участок, где выравнивание недостоверно | Область с фрагментами SSRHK, SGRHK против E—Q, K—P, N—K и т.п. | У двух последовательностей есть вставка из трёх аминокислот, у большинства остальных — гэпы; участок не следует интерпретировать как достоверное эволюционное выравнивание |
4. Карта локального сходства двух белков с одним доменом, но разной доменной архитектурой
Для построения карты локального сходства были выбраны две полные белковые последовательности, содержащие домен PF02341 / RbcX, но имеющие разные доменные архитектуры.
Первый белок — O86097, длиной 135 а.к.о. Он представляет наиболее распространённую архитектуру, состоящую только из одного домена PF02341 / RbcX. В InterPro указано, что с такой архитектурой найдено 3905 белков.
Второй белок — A0A078HZT8, длиной 403 а.к.о. Он представляет другую архитектуру: PF04398 / DUF538 + PF02341 / RbcX. То есть в этом белке, кроме домена RbcX, присутствует дополнительный домен DUF538. В InterPro указано, что с такой архитектурой найдено 8 белков.
Полные последовательности этих белков были сравнены с помощью NCBI BLASTp, режим Align two or more sequences. После выполнения BLAST была построена карта локального сходства — Dot Plot.
Таблица 11-3. Белки, использованные для построения dotplot
| Поле | Белок 1 | Белок 2 |
|---|---|---|
| Идентификатор белка | O86097 | A0A078HZT8 |
| Длина белка | 135 а.к.о. | 403 а.к.о. |
| Доменная архитектура | PF02341 | PF04398 — PF02341 |
| Домен 1 | RbcX | DUF538 |
| Домен 2 | отсутствует | RbcX |
| Число белков с такой архитектурой | 3905 | 8 |
| Общий домен | PF02341 / RbcX | PF02341 / RbcX |
| Метод сравнения | BLASTp, Align two or more sequences | BLASTp, Align two or more sequences |
Файл проекта Jalview: 11pr.jvp
Комментарий к dotplot
На карте локального сходства видно несколько диагональных участков, но они занимают не всю матрицу. Это означает, что две последовательности не являются сходными по всей длине. Такой результат ожидаем, потому что белки имеют разную доменную архитектуру: короткий белок O86097 состоит только из домена RbcX, а более длинный белок A0A078HZT8 содержит дополнительный N-концевой домен DUF538 и домен RbcX ближе к C-концу.
На dotplot основное сходство наблюдается между участком короткого белка O86097 и C-концевой частью длинного белка A0A078HZT8, примерно в районе координат 300–360 по оси длинного белка. Именно там в архитектуре второго белка расположен домен RbcX. Следовательно, диагональные линии на карте соответствуют локальному сходству общего домена PF02341 / RbcX.
При этом в области N-концевой части белка A0A078HZT8, где расположен домен PF04398 / DUF538, выраженного сходства с белком O86097 нет. Это логично, потому что у короткого белка O86097 такого домена нет. Таким образом, dotplot подтверждает, что сходство между выбранными белками связано не со всей длиной последовательностей, а именно с общим доменом RbcX.