Главная Семестры Обо мне

Знакомство с Uniprot

Все практические задания этого практикума выполнялись с целью освоиться в базе Uniprot, которая является широко используемой в биоинформатике.

Базовые данные о белке

Поиск проводился с помощью GeneBankID, который был введен в форму поиска на сайте Uniprot. Полученные данные (таблица 1) характеризуют субъединицу CarD комплекса кофеил-КоА-редуктазы и Etf из генома бактерии Acetobacterium woodii DSM 1030

Таблица 1. Основная информация о белке из UniProt
UniProt ID CARD_ACEWD
UniProt AC H6LGM7
RefSeq ID WP_014355958.1
PDB ID 6FAH
Длина белка (а.о.) 262
Молекулярная масса (Да) 28237
Рекомендуемое название Caffeyl-CoA reductase-Etf complex subunit CarD

В работе 2018 года (DOI: 10.1002/1873-3468.12971) была восстановлена структура всего димерного комплекса, включающего белки, транслирующиеся с трех соседних генов.

Кластеры UniRef

Поиск проводился внутри UniRef по идентификатору белка из предыдущего задания. Полученные данные представлены в таблице 2.

Таблица 2. Кластеры UniRef, содержащие белок H6LGM7
UniRef100 UniRef90 UniRef50
ID кластера UniRef100_H6LGM7 UniRef90_H6LGM7 UniRef50_H6LGM7
Название кластера Cluster: Caffeyl-CoA reductase-Etf complex subunit CarD
Размер кластера 1 2 541

Судя по всему, оба белка из второго кластера принадлежат одному организму, хоть и различаются по длине (262 и 276 аминокислотных остатков). При переходе же к третьему кластеру количество белков существенно возрастает. Их длина варьируется от 48 до 276 аминокислотных остатков, но все они являются переносчиками электронов.

Сеансы поиска в UniProt

Для знакомства с синтаксисом запросов в UniProt были проведены сеансы поиска, представленные ниже.

Поиск субъединицы CarD

  1. Поиск по рекомендованному названию
    Текст запроса: name:"caffeyl coa reductase etf complex subunit card"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 27

  2. Поиск по названию среди белков своего организма
    Текст запроса: name:"caffeyl coa reductase etf complex subunit card" AND organism:"acetobacterium woodii strain atcc 29683 dsm 1030 jcm 2381 kctc 1655 wb1"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  3. Поиск по названию среди белков из организмов того же семейства
    Текст запроса: name:"caffeyl coa reductase etf complex subunit card" taxonomy:"Eubacteriaceae [186806]"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 1

  4. Поиск по названию среди белков из организмов того же отдела
    Текст запроса: name:"caffeyl coa reductase etf complex subunit card" taxonomy:"Firmicutes [1239]"
    Количество находок в Swiss-Prot: 1
    Общее количество находок: 2

Поиск гемоглобина

  1. Поиск без ограничения на организмы
    Текст запроса: name:hemoglobin
    Количество находок в Swiss-Prot: 950
    Общее количество находок: 20324

  2. Поиск среди животных
    Текст запроса: name:hemoglobin taxonomy:metazoa
    Количество находок в Swiss-Prot: 842
    Общее количество находок: 4338

  3. Поиск среди позвоночных
    Текст запроса: name:hemoglobin taxonomy:vertebrata
    Количество находок в Swiss-Prot: 825
    Общее количество находок: 3418

Реультаты поиска довольно предсказуемы. Несмотря на общую распространенность гемоглобина среди животных, почти все аннотированные последовательности относятся к позвоночным. Если продолжить поиск, то окажется, что больше половины из них (490) составляют белки млекопитающих, а почти две пятых последних (183) - приматов. Можно выдвинуть гипотезу, что ученым интереснее и важнее изучать гемоглобины организмов, систематически близких к человеку.

Поиск трипсинов

  1. Простой поиск
    Текст запроса: name:trypsin
    Количество находок в Swiss-Prot: 312
    Общее количество находок: 23018

  2. Поиск, исключающий ингибиторы
    Текст запроса: name:trypsin NOT name:inhibitor
    Количество находок в Swiss-Prot: 101
    Общее количество находок: 18270

Довольно забавно, что подобный подход все равно не позволяет найти исключительно сами белки. В результатах поиска по указанному выше запросу, например, встречаются рецепторы трипсина.

История изменений

Этот белок начали подробно изучать совсем недавно: первая запись была сделана в TrEMBL аж в 2012 году, что довольно поздно по сравнению с другими белками. Вместе с первой записью в Swiss-Prot в 2016 году белок получил новое название (оно было изменено с H6LGM7_ACEWD на CARD_ACEWD). Единственная на данный момент полученная структура белка впервые упоминается в записи от марта 2018 года (разрешение 3.13Å). Последняя на данный момент запись (39) была сделана 16 января 2019 года. Судя по всему, она не предоставляет новой информации: две измененные строчки обозначают дату внесения в базу данных и OrthoDB.

Локальные особенности

Все строчки с подобными записями начинаются с идентификатора FT и могут описывать как структуру последовательности, так и довольно незаурядные вещи (таблица 3).

Таблица 3. Обзор некоторых идентификаторов Feature Table
NON_STD Нестандартные аминокислоты
VARIANT Вариабельные аминокислоты
MOD_RES Посттрансляционная модификация остатка
MUTAGEN Намеренно измененные сайты и последствия мутации
VAR_SEQ Альтернативный сплайсинг/альтернативные промоторы
DISULFID Дисульфидный мостик
METAL Сайт, связывающий ион металла
MOTIF Короткая последовательность, представляющая интерес

После неудачных попыток найти хоть что-нибудь из вышеперечисленного в выданном белке, была сформулирована гипотеза о том, что первая запись в Uniprot появилась так поздно, потому что субъединица CarD выглядит настолько скучной, что никто не хотел ее изучать.

Попытки поискать что-нибудь интересное в белке, атлас контактов которого был составлен для прошлого практикума, также потерпели неудачу. Еднственный встречающийся в нем (Uniprot ID ACXB_XANP2) занимательный, а также нерассмотренный ранее идентификатор CONFLICT обозначает несоответствие между данными, полученными в ходе разных исследований. В нашем случае это 13 и 14 остатки: аминокислоты AT и QA.

В качестве более подходящего для изучения FT соединения можно рассмотреть главный прионный белок (Uniprot ID PRND_HUMAN). У него очень много сайтов связывания с ионами цинка или меди, расположенных в пределах 27 аминокислотных остатков (от 61 до 87), например, "FT METAL 61 61 Copper or zinc 1". Еще в молекуле есть остаток, связанный с гликозилфосфатидилинозитолом: "FT LIPID 230 230 GPI-anchor amidated serine", а два гликолизированных остатка аспарагина (181 и 197) имеют одинаковый тип связи с гликаном: "FT CARBOHYD 181 181 N-linked (GlcNAc...) asparagine". Также в белке есть единственный дисульфидный мостик: "FT DISULFID 179 214 {ECO:0000269|PubMed:14623188}". Так как это прион, в нем очень много вариабельных аминокислот. В качестве примера можно привести замену аспартата на аспарагин в 178 кодоне, которая вместе с метионином на 129 позиции приводит к фатальной семейной бессонице: "FT VARIANT 178 178 D - > N (in FFI and CJD; dbSNP:rs74315403)". В соединении есть три конфликтных участка: 118 (missing), 169 (Y -> H), 227 (Q -> K).

Таким образом, по строкам, содержащим идентификатор FT, можно узнать много важного и интересного о белке.