На страницу четвертого семестра

Аннотация базы данных SDAP

Structural Database of Allergenic Proteins and food allergens

Ключевые слова: аллерген, эпитоп.
SDAP — ВЕБ-сервер, объединяющий базу данных по протеинам-аллергенам (куда входят: имя, источник, последовательность, структура, эпитопы а так же сопутствующие ссылки на такие структурные банки данных, как SwissProt, PIR, NCBI, PDB) с различными биоинформатическими ресурсами, позволяющими изучать структуру и прочие особенности белков-аллерегенов. Биоинформатические ресурсы помимо стандартных инструментов представлены собственным SDAP-алгоритмом для поиска консервативных а.о.
На данный момент база содержит 737 аллергенов и изоаллергенов, 829 белковых последовательностей, и 22 IgE и IgG эпитопа.
Главным сервером, на котором находится база, является сервер Медицинского Отдела Университета Техаса, США.

Организаторами базы являются:

База составляется экспертами на основе списка аллергенов, предсоставленного веб-сервером Международного Союза Иммунологических Обществ (International Union of Immunological Societies, IUIS), с добавлением соответствующей литературной информации и информации о структурах из банков данных SwissProt, PIR, NCBI, PDB.

Стартовая страница, по моему мнению, весьма удобна для пользователя. Главную страницу можно разделить на две части: слева находятся ссылки на ресурсы Университета, ссылки на популярные биоинформатические ресурсы, в т.ч. на различные классификации протеинов, а так же ссылки на ресурсы данной базы. Левая часть доступна с любой страницы базы, что дает возможность получить доступ к любой другой странице или ресурсу с любой страницы базы. Что очень важно, в этой части есть ссылки на FAQ (часто задаваемые вопросы) и руководство по использованию базы ("мануал"). Так же можно посмотреть информацию о базе: обзор, общую информацию, информацию о текущей версии, информацию о создателях и публикациях.

Собственно на главной странице есть ссылка на мануал. Есть так же ссылки на списки аллергенов, в т. ч. в алфавитном порядке. Предоставлена возможность сравнения двух последовательностей с помощью подсчета E1-E5 Property-Based Peptide Similarity Index:

Есть ссылки на отдельные списки аллергенов с эпитопами и аллергены с PDB-структурами, что, наверное будет полезно специалистам. Вообще на главной странице базы предоставлены много различных возможностей для поиска аллергенов — полный список, алфавитный список, список по эпитопам и PDB — среди упомянутых, так же список аллерегенов по классификации PFAM. Есть возможность поиска в базе по предоставленной fasta-последовательности с помощью алгоритма PD sequence similarity index, или возможен поиск по fasta-последовательности с помощью алгоритма FASTA 3.5.
Сейчас в базе 886 записей об аллергенах. Много это или мало? Наверное, достаточно. Но аллергенов в природе определенно больше. Тем не менее, база выглядит весьма заоелненной. Могу для сравнения привести результат запроса: Query "([uniprot-Description:*allergen*] | [uniprot-Keywords:*allergen*]) " found 1473 entries.


Так, работать еще можно, но многое уже сделано.

Перед характеристикой поисковых инструментов базы имеет смысл описать формат документа базы.

Из документа можно получить название аллергена, научное и общеупотребительное название вида - источника, тип аллергена, описание, узнать, относится ли аллерген к списку IUIS
Например:

Dac g 1 название аллергена

Остальные поля:

Species - Scientific NameDactylis glomerata

Species - Common Name — orchard grass

Allergen Type — grass Poales

Allergen Description — AgDg1

Class — IUIS

При переходе по ссылке в имени аллрегена можно получить дополнительную информацию - ссылки на статьи в PubMed, ссылки на соответствующую информацию в PFAM, SwissProt и т. д.
Так выглядит результат поиска:

Allergen

Species - Scientific Name

Species - Common Name

Allergen Type

Allergen Description

Class

Pan s 1

Panulirus stimpsoni

spiny lobster

foods  

tropomyosin

non-IUIS

Par j 1

Parietaria judaica

 

weed Rosales

lipid transfer protein; homolog: pathogenesis related protein PR14

IUIS


А так может выглядеть документ, относящийся к определенному аллергену:

Allergen Par j 1

Allergen

Par j 1

Type

weed

Species - Systematic Name

Rosales; Parietaria judaica

Species - Common Name

 

Keywords

lipid transfer protein; homolog: pathogenesis related protein PR14

Class

IUIS


Par j 1 - Isoallergens

No

Isoallergen

1

Par j 1.0101

2

Par j 1.0102

3

Par j 1.0201


Par j 1 - Protein Sequences

Source

Link to Source

View Sequence

FASTA@SDAP

BLAST@ExPASy

BLAST@PIR

FASTA@PIR

PROSITE@PIR

SwissProt

P43217

Go!

Go!

Go!

Go!

Go!

Go!

SwissProt

O04404

Go!

Go!

Go!

Go!

Go!

Go!

SwissProt

Q40905

Go!

Go!

Go!

Go!

Go!

Go!

FASTA@SDAP: FASTA search against all SDAP allergen sequences performed at SDAP
BLAST@ExPASy: BLAST search performed at the
Expert Protein Analysis System (ExPASy) proteomics server of the Swiss Institute of Bioinformatics (SIB)
BLAST@PIR: BLAST search performed at
PIR - Protein Information Resources
FASTA@PIR: FASTA search performed at
PIR - Protein Information Resources
PROSITE@PIR: PROSITE search performed at
PIR - Protein Information Resources

Inspect
AutoMotif results for Par j 1. AutoMotif contains a database of PCPMer motifs for allergens.
AutoMotif home page
AutoMotif summary
Browse
AutoMotif proteins
Browse
AutoMotif families

Par j 1 - Pfam domains

Sequence

Pfam sequence

Pfam family

Allergens from
this Pfam family

Pfam database

Pfam region

First amino acid

Last amino acid

P43217

 

 

 

 

 

 

 

 

NL11_PARJU

PF00234

Go!

Pfam A

1

4

91

 

 

PF00234: Protease inhibitor/seed storage/LTP family

O04404

 

 

 

 

 

 

 

 

NL12_PARJU

PF00234

Go!

Pfam A

1

41

128

 

 

PF00234: Protease inhibitor/seed storage/LTP family

Q40905

 

 

 

 

 

 

 

 

NL13_PARJU

PF00234

Go!

Pfam A

1

40

127

 

 

PF00234: Protease inhibitor/seed storage/LTP family

Pfam is a database of multiple sequence alignments and hidden Markov models covering protein domains and families

Par j 1 - Epitopes

No

Epitope

Exact
Match
@SDAP

Peptide
Similarity
@SDAP

Exact
Match
@PIR

Position

Type

Description

1

VQGKEKEP

Go!

Go!

Go!

18-25

IgE

 

2

SKGCCSGAKRLD

Go!

Go!

Go!

26-37

IgE

 

3

KTGPQRV

Go!

Go!

Go!

41-47

IgE

 

4

PKHCGIVD

Go!

Go!

Go!

72-79

IgE

 

5

PAHKARLE

Go!

Go!

Go!

118-125

IgE

 

J. A. Asturias, N. Gomez-Bayon, J. L. Eseverri, and A. Martinez, Par j 1 and Par j 2, the major allergens from Parietaria judaica pollen, have similar immunoglobulin E epitopes, Clin. Exp. Allergy 2003, 33, 518-524.


Теперь о результатах тестирования различных поисковых и других инструментов базы:
Тип поискового сервисаРезультатПримечания
Алфавитный список с возможностью поиска по первой буквеСписок аллергенов, чьи названия начинаются на некоторую букву, например DСоответствующие ссылки даны на главной странице. Имена аллергенов, по которым и идет поиск, даются по биологическому названию источника.
Список аллергенов с имеющейся записью PDBВыводит список аллергенов с имеющейся записью PDBВ документе есть дополнительная секция — ссылка на ресурс PDB, некоторая информация, так же ссылки на онлайн-инструменты для просмотра PDB — например WebMol. При прохождении по ссылке попадаем на соотвествующую страницу PDB RCSB
Список аллергенов с имеющейся 3D-модельюВыводит список аллергенов с имеющейся 3D-модельюПока в этом списке один аллерген — Jun a 3 Ссылка на пресловутую 3D-модель не работает, однако можно посмотреть с помощью WebMol. Чем этот сервис отличается от представления информации об аллергенах, имеющих PDB-кристалл, не совсем понятно.
Список аллерегенов с эпитопамиВыводит список аллерегенов с эпитопамиВ документе появляется новая секция — эпитопы данного аллергена. Можно получить последовательности эпитопов, выполнить поиск по последовательности в банке данных PIR (странно, что не в Uniprot или хотя бы в Swissprot), можно поискать точное совпадение в базе SDAP или поискать похожие с помощью алгоритма PD (см. ниже)
Список семейств PFAM, содержащих аллергеныВыводит список этих семействПлучаем по две ссылки на каждой строке результата, одна — на список аллергенов в этом семействе, другая — непосредственно на документ PFAM.
Классификация PFAM для аллергеновВыводит список семейств с перечнем аллергенов в каждом семействеВариант предыдущего сервиса, принципиально от него не отличается
Список аллергенов SDAPОбычный алфавитный списокВ случае если ничего, кроме первой буквы имени, об аллерегене неизвестно, хотя даже в таком случае имеет смысл воспользоваться поиском по первой букве
Список аллергенов с последовательностями в SDAPВыводит список аллергенов, где каждому соответствует идентификатор последовательностиИдентификаторы обычно представляют собой 7-8 значное число, иногда на первом месте стоит буква О. Зачем они нужны, не совсем ясно. Данный список ненамного короче полного (на 32 хита)
Поиск по виду аллергенаМожно получить все альбумины, вицилины, и т.дФактически, выдает список всех аллергенов, в поле Description для которых есть данный термин. Например, поиск по термину Albumin даст все альбумины и 2S альбумины, парвальбумины и т. д., а поиск по термину 2S albumin — только 2S альбумины, что будет вложенным множеством по отношению к предыдущему поиску.
В целом данную группу сервисов можно оценить высоко. Все списки проверены и работают, практически все предоставляют какой-то специфический тип информации, т.е. почти каждый список характеризует какой-то класс объектов. Есть, конечно и недочеты, они в основном перечисленны в примечаниях: использование банка данных PIR, неразвитый (будем надеяться — временно) список по 3D-модели, фактическое дублирование списка по первой букве полным списком, определенно менее удобным в использовании (всего хитов на данный момент 886) и списком с последовательностями. В целом достаточно разветвленная система списков может позволить найти нужный аллерген очень быстро.

Теперь о собственно поисковых инструментах:
Тип поискового сервисаАлгоритмЗапросРезультатПримечания
Поиск по названию, имени, источнику, etc Search Field: Source — common name
Search Term: lobster
Найдено два аллергена, оба из лобстера (что неудивительно)Возможность искать по одному из 5ти полей: название, источник (научное название), источник (общеупотребительное название), описание, все поля. Отдельно реализована возможность поиска среди пищевых аллергенов
FASTA-поиск в базе SDAPFASTA 3.45EFQTAQHLRILA
CQQWLGGGKQAXQS
GTSGPSWTLD
— последовательность из аллергена Sin a 1, слегка измененная
Выдает таблицу, аналогичную таблице, выдаваемой программой BLAST. В данном случае E score составил 5.1e-09, bit score составил 49.6Простой вариант поиска, в котором пользователь вводит последовательность и некоторое имя для нее.
FAO-WHO-поиск аллергенаFASTA 3.45, больше дополнительных параметров RIPGQRKEFQQAQH
LRAIPLQWLHKQAMQ
SGSGPSPQGPQQRPP
LLQQCCNQEEPLCVCPTL
KGASKAVRQQLEQQGQQGP
HVISADSRIYQTAGGGGC
NIPQVSVCP
FKKTMPGPS
— последовательность из аллергена Sin a 1, слегка измененная. Дополнительные параметры:
  1. FASTA alignments for an 80 amino acids sliding window, sequence identity cutoff: 35
  2. То же самое, но Sequence identity cutoff: 65 Последовательность: EFQTAQHLRILACQQW
    LGGGKQAXQS
    GTSGPSWTLD
  3. Exact match for contiguous amino acids, 6 аминокислот
  4. То же самое, но 10 подряд идущих аминокислот
  1. Построил 38 выравниваний данной последовательности с последовательностью аллергена аллергена Sin a 1, для каждого было определено значение Identity
  2. Построил так же 38 выравниваний, значения Identitiy в среднем несколько ниже.
  3. Выдает точные соответствия блоков из 6 аминокислот. Если соответствия нет, пишет: No match found in SDAP for: <блок>. В данном случае программа выдала два соответствия с другим аллергеном — Bra j 1, и множество соответствий с исходным аллергеном
  4. Соответствий не найдено
Выбор дополнительных параметров основан на Правилах отнесения вещества к группе аллергенов. В соответствии с этими правилами, вещество можно отнести к аллерегену, если а) Сходство для окна из 80 а.о. более 35% б) Есть полностью соответствующие блоки по 6 а.о. На основании этого выбираются дополнительные параметры для поиска. Первый тип поиска — поиск по последовательности, аналогичный предыдущему. Второй — поиск по окну, применим для больших последовательностей (не меньше 80 а.о.). Третий — поиск по совпадению блоков а.о. — применим так же в случае последовательностей меньше 80 а.о. Необходимо отметить, что такая гибкая система поиска позволяет найти аллерген в любом случае. Предложенные значения по умолчанию следует в большинстве случаев оставлять без изменения
Сравнение двух пользовательских последовательностейPD index Seq1: EFQTAQH
LRILACQQWL
GGGKQAXQ
SGTSGPSWTLD
Seq2: EFQQAQHLR
ACQQWLHKQ
AMQSGSGPS
PQGPQQRPPLL
QQCCNELHQ
EEPLCVCP
Выдает похожие последовательности из базы ALL_SEQ, минимальное значение PD и соответствующую ему последовательность: Minimum PD=12.76 EFQQAQHLR
ACQQWLHK
QAMQSGSGPS
PQGPQQRPP
База последовательностей автоматически генерируется из данных NCBI из последовательностей, аннотации которых содержат слово "alleregen"
В целом база производит приятное впечатление. Качественные и разветвленные системы поиска, интеграция базы с другими, более общими базами, понятный и простой интерфейс могут помочь в исследовании аллергенов. Конечно, пока возможности базы не очень широки, но уже достаточно серьезны. К сожалению, неизвестно, поддерживается ли база сейчас. Заявлено, что апдейт базы происходит раз в три месяца, между тем последний апдейт произошел 25 января 2005 года. Следует надеяться, что это временные трудности. Оценка, поставленная мной за базу по пятибальной шкале — "четыре с плюсом".


© Галкин Иван, 2006