Практикум 5. UniProt

В рамках данного практикума была изучена структура банка последовательностей UniProt, на примере выданного нам белка были рассмотрены различные составляющие его информационнные блоки, было проведено несколько сеансов поиска.

1. Получение информации о белке (сульфид-хинонредуктаза; SQRD_ACIF2)

На сайте UniProt с помощью GenBankID была найдена основная информация о белке сульфид-хинонредуктаза (Acidithiobacillus ferrooxidans). Результат работы представлен в таблице 1.

Таблица 1. Основная информация о белке SQRD_ACIF2 из UniProt.
UniProt ID UniProt AC RefSeq ID PDB ID Длина белка (а.о.) Молекулярная масса (Да) Рекомендуемое название
SQRD_ACIF2 B7JBP8 WP_012536761.1 3KPK; 3SX6; 3SXI; 3SY4; 3SYI; 3SZ0; 3SZC; 3SZF; 3SZW; 3T0K; 3T14; 3T2K; 3T2Y; 3T2Z; 3T31 434 47406 Sulfide-quinone reductase

Комментарий к таблице 1. Фермент представлен всего одной цепью, содержит 4 различных типа лигандов (H2S, FAD, PGR, LMT). В PDB содержится 15 кристаллических структур, соответствующих данному белку, в том числе мутантные формы, полученные с помощью системы экспрессии E.coli. Как видно из значений длины (а.о.) и молекулярной массы (Да), белок имеет довольно средние размеры.

2. Описание кластеров UniRef белка SQRD_ACIF2

Для получения представленной в таблице 2 информации в базе UniRef был совершен поиск по UniProt AC (B7JBP8).

Таблица 2. Кластеры UniRef, содержащие белок SQRD_ACIF2.
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_B7JBP8 Cluster: Sulfide-quinone reductase 2
UniRef90 UniRef90_B7JBP8 Cluster: Sulfide-quinone reductase 30
UniRef50 UniRef50_B7JBP8 Cluster: Sulfide-quinone reductase 72

Комментарий к таблице 2. Внутри кластера 100% содержится всего два белка (UniProt AC: Q4F7X6, B7JBP8), принадлежащие бактерии Acidithiobacillus ferrooxidans (Thiobacillus ferrooxidans) и штамму ATCC 23270 Acidithiobacillus ferrooxidans (Ferrobacillus ferrooxidans) соответственно. Белок Q4F7X6 имеет статус "Unreviewed" и обозначен как "predicted protein". Кластеры 90% и 50% содержат сильно больше белков (30 и 72); сами ферменты имеют в том числе метагеномное происхождение (из метагенома дренажа шахты был получен, например, белок E6QBV6)

3. Сеансы поиска в UniProt

Для знакомства с синтаксисом запросов в UniProt была проведена серия сеансов поиска, описание которых приведено ниже.

Поиск Сульфид-хинонредуктазы

Поиск тубулинов

Поиск трипсинов

При поиске сульфид-хинонредуктазы по сокращенному названию обнаруживается всего 33 записи, 3 из которых имеют статус "Reviewed". Две из них в свою очередь принадлежат уже упоминавшимся выше белкам Q7ZAG8 и B7JBP8. Третий белок - O67931 - принадлежит Aquifex aeolicus (штамм VF5) (Proteobacteria; Aquificae). Тубулин - основной белок микротрубочек; является гетеродимером, состоящим из альфа- и бета-тубулина. Микротрубочки выполныют огромное число функций в клетке (поддержание и изменение формы клетки, транспорт, защита, передвижение и т.д.), входят в состав цитоскелета. Именно поэтому белок тубулин так широко представлен в самых разных группах организмов, что и проиллюстрировано выше на примере зеленых растений и бурых водорослей.

Трипсин - фермент, принадлежащий классу гидролаз, представленный в пищеварительной системе многих позвоночных. Функция заключается в расщеплении белковых молекул, в том числе способны к самоперевариванию. Очевидно, что для нормального функционирования организмы нуждаются в ингибиторах для столь активного белка. Если судить по результатам двух последних сеансов поиска в Uniprot, в базе имеется порядка 4,748 записей о соответствующих ингибиторах.

4. Сравнение записей UniProt и RefSeq Protein

В базах UniProt и RefSeq Protein были найдены записи о белке сульфид-хинонредуктаза по соответствующим идентификаторам (B7JBP8 для UniProt и WP_012536761 для RefSeq Protein); на их основе был проведен сравнительный анализ структуры записи.

1. Маркировка строки в UniProt осуществляется двубуквенным сокращением ("DE" для "descrtiption" etc). В RefSeq Protein в качестве обозначений используются полные формы слов, написанные заглавным шрифтом.

2. В UniProt дата создания записи и дата внесения последних изменений располагается в строках "DT", тогда как в RefSeq Protein присутствует запись только о внесении изменений; располагается она в строке "LOCUS", вместе с идентификатором и числом аминокислотных остатков.

3. Поле "DE" в UniProt включает в себя рекомендованные и альтернативные полные и сокращенные названия белка, а также номера в базе PubMed. "DEFINITION" RefSeq Protein содержит одно из названий белка (NAD(P)/FAD-dependent oxidoreductase) и организм, которому он принадлежит.

4. Систематическое положение организма в UniProt располагается в строках "OC", видовое название и штамм - "OS". В RefSeq Protein схожая запись содержится в блоке "SOURCE", в т.ч. подблоке "ORGANISM".

5. Ключевые слова в UniProt обозначаются "KW"; в случае сульфид-хинонредуктазы там содержалась следующая запись: "3D-structure; Complete proteome; FAD; Flavoprotein; Membrane;", "Nucleotide-binding; Oxidoreductase; Quinone; Reference proteome.". В строке "KEYWORDS" RefSeq Protein содержится "RefSeq."

6. Запись последовательности в однобуквенном коде в базах обозначается соответственно "SQ" и "ORIGIN".

Из вышеописанного можно сделать вывод, что приципиальных различий эти две базы данных не имеют, но на мой взгляд, UniProt является более структурированной и полной.

5. История изменения записей UniProt

С помощью вкладки History была изучена хронология изменения записей UniProt, относящихся к сульфид-хинонредуктазе.

На момент выполнения задания (март 2019) актуальной является версия от 16 января 2019 года. Одним из важнейших событий можно считать переход записи из базы TrEMBL в базу Swiss-Prot. Это произошло между 42 и 43 версией, от октября и ноября 2014 года соответственно.

Сравнивая 42 и 63 версии, можно заметить, что за этот промежуток времени было добавлено значительное колличество строк "FT"б также дополненены были "DR", "CC", "RC", "OC", "OS", "DT". Среди всех перечиленных блоков, кроме feature table, также происходили делеции.

Как ни парадоксально, изменения между 63 и 42 версией являются менее обьемными, чем между 42 и 43. Можно сказать, что в этот период времени произошел масштабный рерайтинг данной записи, коснувшийся в значительной степени упомянутых строк, а также keyword и других.

Из описанного можно сделать вывод, что при переходе из базы TrEMBL в Swiss-Prot с записями проиходят крупные изменения, касающиеся их формата и содержания.

6. Изучение ключей таблицы локальных особенностей

Описание

Таблица 3. Информация о ключах таблицы локальных особенностей из UniProt.
Обозначение Описание В белке
O Пиролизин -
U Селеноцистеин -
CARBOHYD Гликозилирование -
PHOSPHORYLATION Фосфорилирование -
ALTERNATIVE PRODUCTS Продукты альтернативного сплайсинга -
DISULFID Дисульфидные связи -
VARIANT Варианты последовательности -
MUTAGEN Экспериментально измененный путем мутагенеза участок 7
UNSURE Неопределенности в последовательности -

В таблице 3 представлена основная информация о ключах таблицы локальных особенностей и их представленность в записи белка.

В данной сульфид-хинонредуктазе рассмотрено 7 вариантов замен. 5 из них не изменяют структуры и функциональности; имеются две записи о значащих заменах: при замене цистеина 160 на аланин происходит значительное угнетение способности к редукции FAD, отключает активность децилубихинона; замена цистеина 356 на аланин приводит к полной потере активности фермента.