Знакомство с UniProt

Цель данного практикума: знакомство с банком UniProt и получение основных навыков работы с этой базой данных(в основном извлечение конкретных данных).

Получение информации о белке HEM2_CHLP8

В базах данных UniProt, PDB получена информация об идентификаторах дегидратазы дельта-аминолевулиновой кислоты, её длины, молекулярной массе и вторичной структуре. Данные представлены в Таблице 1.

Таблица 1. Основная информация о белке HEM2_CHLP8 из UniProt.
UniProt ID UniProt AC RefSeq ID PDB ID Длина белка (а.о.) Молекулярная масса (Да) Рекомендуемое название
HEM2_CHLP8 Q59334; B3QMJ8 WP_012501984.1; NC_011027.1 1W1Z; 2C1H 328 36395 Full=Delta-aminolevulinic acid dehydratase; Short=ALAD; Short=ALADH;

Дегидратаза дельта-аминолевулиновой кислоты катализирует начальный этап биосинтеза тетрапирролов.1 субъединица связывается с 2 молекулами 5-аминолевулината и каталтзирует их конденсацию в порфобилиноген.Рассматриваемый белок относится к классу лиаз(EC:4.2.1.24).
Дегидратаза дельта-аминолевулиновой кислоты представлена в PDB 2 цепями(A, B). Данный белок имеет два разных лиганда на каждой из цепей. Первый - ион магния, второй зависит от комплекса, в котором рассматривается белок. Так как HEM2_CHLP8 в PDB представлена дважды: в комплексе с 4,7-DIOXOSEBACIC ACID(PDB=2C1H)[2] и в комплексе с левулиновой кислотой (PDB=1W1Z)[1]. Данные кислоты также считаются лигандами и имеются на обеих цепях. Разрешение белка в PDB составляет 2.6A. Структура дегидратаза дельта-аминолевулиновой кислоты получена с помощью рентгеноструктурного анализа.[3]

Поиск белка HEM2_CHLP8 в UniRef

По UniProt AC белка(Q59334) в базе данных UniRef были найдены кластеры близких последовательностей (UniRef100, UniRef90, UniRef50) дегидратазы дельта-аминолевулиновой кислоты, их ID, названия и размеры. Все полученные данные приведены в Таблице 2.

Таблица 2. Кластеры UniRef, содержащие белок HEM2_CHLP8.
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_Q59334 Delta-aminolevulinic acid dehydratase 1
UniRef90 UniRef90_Q59334 Delta-aminolevulinic acid dehydrataseE 3
UniRef50 UniRef50_Q59334 Delta-aminolevulinic acid dehydratase 3699

В начале работы с UniRef было не совсем понятно, что такое кластеры UniRef100, UniRef90, UniRef50.
UniRef предоставляет сгруппированные набора последовательностей из базы данных UniProt(включая изоформы) и отдельные записи UniPrac. Это позволяет исключить из рассмотрения лишние последовательности и обеспечивает однозначное распределение последовательностей на три кластера.
UniRef100.Состоит из идентичных последовательностей и их фрагментов(должны содержать не меньше 11 остатков), принадлежащих любому организму. Данные о них находятся в единой UniRef записи.
UniRef90.В один кластер объединяются все последовательности идентичные последовательностям из UniRef100 не менее чем на 90% и перекрывающиеся не менее чем на 80% с самой длинной последовательностью из UniRef100.
UniRef50.В один кластер объединяются все последовательности идентичные последовательностям из UniRef90 не менее чем на 50% и перекрывающиеся не менее чем на 80% с самой длинной последовательностью из UniRef90.
В поиске ID, названий и размеров всё довольно просто.В кластер UniRef100 входит только одна последовательность, что вполне ожидаемо. Интересно, что в кластер UniRef90 попали последовательности белков, полученных из организмов относящихся к тому же роду Chlorobaculum(и только к нему), а вот в кластере UniRef50 оказались бактерии, относящиеся к разным родам. Размер кластера UniRef50 равен 3 699, это значит , что дегидратаза дельта-аминолевулиновой кислоты (или другие белки, имеющую очень похожую аминокислотную последовательность и скорее всего сходные функции) довольно “популярна” среди бактерий.[4]

Сеансы поиска в UniProt

Для знакомства с синтаксисом запросов в UniProt были проведены следующие сеансы поиска.

Поиск дегидратазы дельта-аминолевулиновой кислоты

Поиск альбуминов

Поиск трипсинов

Из результатов поиска в Uniref по названию белка ALAD и другим дополнительным опциям можно увидеть, что практически все найденные записи аннотированы людьми.Однако результаты поиска альбуминов и трипсинов дают совершенно другую статистику, здесь большинство записей находится в банке данных TrEMBL, т.е. они анализировались автоматически. В принципе полученную статистику нетрудно объяснить, ведь рассматриваемый белок ALAD встречается в организмах гораздо реже, чем трипсин и альбумин. Но что дейсвительно интересно, так это то, что 7 из 8 неаннотированных записей(Текст запроса: "name:alad") принадлежат млекопитающим, т.е. организмам гораздо более близким к человеку, чем бактерия Chlorobaculum parvum. Странно, что они ещё неизучены, ведь рассматриваемый белок катализирует синтез порфобилиногена, который у людей является маркером острой перемежающейся порфирии[5](наследуемое по доминантному типу заболевание, характеризующееся поражением периферической и центральной нервной системы).Вполне возможно, что исследование механизмов работы этого белка у других млекопитающих было бы полезно в лечении болезни у людей.

Сопроводительные материалы

[1]https://www.rcsb.org/structure/1W1Z - структура белка в PDB в комплексе с левулиновой кислотой
[2]https://www.rcsb.org/structure/2C1H - структура белка в PDB в комплексе с 4,7-DIOXOSEBACIC ACID
[3]https://www.uniprot.org/uniprot/Q59334# - исследуемый белок в UniProt
[4]https://www.uniprot.org/uniref/?query=HEM2_CHLP8&sort=score - кластеры идентичности в UniRef
[5]https://ru.wikipedia.org/wiki/- острая перемежающаяся порфирия