Знакомство с Uniprot
Все практические задания этого практикума выполнялись с целью освоиться в базе Uniprot, которая является широко используемой в биоинформатике.
Базовые данные о белке
Поиск проводился с помощью GeneBankID, который был введен в форму поиска на сайте Uniprot. Полученные данные (таблица 1) характеризуют субъединицу CarD комплекса кофеил-КоА-редуктазы и Etf из генома бактерии Acetobacterium woodii DSM 1030
UniProt ID | CARD_ACEWD |
---|---|
UniProt AC | H6LGM7 |
RefSeq ID | WP_014355958.1 |
PDB ID | 6FAH |
Длина белка (а.о.) | 262 |
Молекулярная масса (Да) | 28237 |
Рекомендуемое название | Caffeyl-CoA reductase-Etf complex subunit CarD |
В работе 2018 года (DOI: 10.1002/1873-3468.12971) была восстановлена структура всего димерного комплекса, включающего белки, транслирующиеся с трех соседних генов.
Кластеры UniRef
Поиск проводился внутри UniRef по идентификатору белка из предыдущего задания. Полученные данные представлены в таблице 2.
UniRef100 | UniRef90 | UniRef50 | |
---|---|---|---|
ID кластера | UniRef100_H6LGM7 | UniRef90_H6LGM7 | UniRef50_H6LGM7 |
Название кластера | Cluster: Caffeyl-CoA reductase-Etf complex subunit CarD | ||
Размер кластера | 1 | 2 | 541 |
Судя по всему, оба белка из второго кластера принадлежат одному организму, хоть и различаются по длине (262 и 276 аминокислотных остатков). При переходе же к третьему кластеру количество белков существенно возрастает. Их длина варьируется от 48 до 276 аминокислотных остатков, но все они являются переносчиками электронов.
Сеансы поиска в UniProt
Для знакомства с синтаксисом запросов в UniProt были проведены сеансы поиска, представленные ниже.
Поиск субъединицы CarD
-
Поиск по рекомендованному названию
Текст запроса: name:"caffeyl coa reductase etf complex subunit card"
Количество находок в Swiss-Prot: 1
Общее количество находок: 27
-
Поиск по названию среди белков своего организма
Текст запроса: name:"caffeyl coa reductase etf complex subunit card" AND organism:"acetobacterium woodii strain atcc 29683 dsm 1030 jcm 2381 kctc 1655 wb1"
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
-
Поиск по названию среди белков из организмов того же семейства
Текст запроса: name:"caffeyl coa reductase etf complex subunit card" taxonomy:"Eubacteriaceae [186806]"
Количество находок в Swiss-Prot: 1
Общее количество находок: 1
-
Поиск по названию среди белков из организмов того же отдела
Текст запроса: name:"caffeyl coa reductase etf complex subunit card" taxonomy:"Firmicutes [1239]"
Количество находок в Swiss-Prot: 1
Общее количество находок: 2
Поиск гемоглобина
-
Поиск без ограничения на организмы
Текст запроса: name:hemoglobin
Количество находок в Swiss-Prot: 950
Общее количество находок: 20324
-
Поиск среди животных
Текст запроса: name:hemoglobin taxonomy:metazoa
Количество находок в Swiss-Prot: 842
Общее количество находок: 4338
-
Поиск среди позвоночных
Текст запроса: name:hemoglobin taxonomy:vertebrata
Количество находок в Swiss-Prot: 825
Общее количество находок: 3418
Реультаты поиска довольно предсказуемы. Несмотря на общую распространенность гемоглобина среди животных, почти все аннотированные последовательности относятся к позвоночным. Если продолжить поиск, то окажется, что больше половины из них (490) составляют белки млекопитающих, а почти две пятых последних (183) - приматов. Можно выдвинуть гипотезу, что ученым интереснее и важнее изучать гемоглобины организмов, систематически близких к человеку.
Поиск трипсинов
-
Простой поиск
Текст запроса: name:trypsin
Количество находок в Swiss-Prot: 312
Общее количество находок: 23018
-
Поиск, исключающий ингибиторы
Текст запроса: name:trypsin NOT name:inhibitor
Количество находок в Swiss-Prot: 101
Общее количество находок: 18270
Довольно забавно, что подобный подход все равно не позволяет найти исключительно сами белки. В результатах поиска по указанному выше запросу, например, встречаются рецепторы трипсина.
История изменений
Этот белок начали подробно изучать совсем недавно: первая запись была сделана в TrEMBL аж в 2012 году, что довольно поздно по сравнению с другими белками. Вместе с первой записью в Swiss-Prot в 2016 году белок получил новое название (оно было изменено с H6LGM7_ACEWD на CARD_ACEWD). Единственная на данный момент полученная структура белка впервые упоминается в записи от марта 2018 года (разрешение 3.13Å). Последняя на данный момент запись (39) была сделана 16 января 2019 года. Судя по всему, она не предоставляет новой информации: две измененные строчки обозначают дату внесения в базу данных и OrthoDB.
Локальные особенности
Все строчки с подобными записями начинаются с идентификатора FT и могут описывать как структуру последовательности, так и довольно незаурядные вещи (таблица 3).
NON_STD | Нестандартные аминокислоты |
---|---|
VARIANT | Вариабельные аминокислоты |
MOD_RES | Посттрансляционная модификация остатка |
MUTAGEN | Намеренно измененные сайты и последствия мутации |
VAR_SEQ | Альтернативный сплайсинг/альтернативные промоторы |
DISULFID | Дисульфидный мостик |
METAL | Сайт, связывающий ион металла |
MOTIF | Короткая последовательность, представляющая интерес |
После неудачных попыток найти хоть что-нибудь из вышеперечисленного в выданном белке, была сформулирована гипотеза о том, что первая запись в Uniprot появилась так поздно, потому что субъединица CarD выглядит настолько скучной, что никто не хотел ее изучать.
Попытки поискать что-нибудь интересное в белке, атлас контактов которого был составлен для прошлого практикума, также потерпели неудачу. Еднственный встречающийся в нем (Uniprot ID ACXB_XANP2) занимательный, а также нерассмотренный ранее идентификатор CONFLICT обозначает несоответствие между данными, полученными в ходе разных исследований. В нашем случае это 13 и 14 остатки: аминокислоты AT и QA.
В качестве более подходящего для изучения FT соединения можно рассмотреть главный прионный белок (Uniprot ID PRND_HUMAN). У него очень много сайтов связывания с ионами цинка или меди, расположенных в пределах 27 аминокислотных остатков (от 61 до 87), например, "FT METAL 61 61 Copper or zinc 1". Еще в молекуле есть остаток, связанный с гликозилфосфатидилинозитолом: "FT LIPID 230 230 GPI-anchor amidated serine", а два гликолизированных остатка аспарагина (181 и 197) имеют одинаковый тип связи с гликаном: "FT CARBOHYD 181 181 N-linked (GlcNAc...) asparagine". Также в белке есть единственный дисульфидный мостик: "FT DISULFID 179 214 {ECO:0000269|PubMed:14623188}". Так как это прион, в нем очень много вариабельных аминокислот. В качестве примера можно привести замену аспартата на аспарагин в 178 кодоне, которая вместе с метионином на 129 позиции приводит к фатальной семейной бессонице: "FT VARIANT 178 178 D - > N (in FFI and CJD; dbSNP:rs74315403)". В соединении есть три конфликтных участка: 118 (missing), 169 (Y -> H), 227 (Q -> K).
Таким образом, по строкам, содержащим идентификатор FT, можно узнать много важного и интересного о белке.