Поисковые системы

1. С помощью SRS нахожу свой белок в банке SwissProt и описываю не менее трех "особенностей" (features) в его аминокислотной последовательности.

Захожу на сайт поисковой системы SRS: srs.ebi.ac.uk

SRS (от Sequence Retrieval System) - база данных, используемая для просмотра разнообразных биологических последовательностей и литературы из баз данных доступных для EBI (от European Bioinformatics Institute).

На странице Library page отмечаю UniPRotKB/Swiss-Prot, выбираю Standard Query Form. В одном из полей запроса выбираю ID и вношу в окошко идентификатор моего белка HUTP_BACSU (или выбираю Accession Number и вношу в окошко код доступа белка P10943). Нажмимаю Search.

Следую по гиперссылке в левом столбце таблицы.

Выбираю особенности (поле Feature Table), относящиеся к целым участкам, а не к одному остатку, прохожу по гиперссылкам для их просмотра, сохраняю информацию и привожу объяснения.

Для моего белка данные особенности представлены для вторичной структуры, как я поняла, цепи C. Именно эта цепь моего белка включает 7 α-спиралей, в то время как A и B цепи - по 6. Дополнительно сравнив приведенную информацию с данными из PDB файла (PDB ID: 1WPV), убеждаюсь в этом.

Приведу описание α-спиралей:

Указание Начало Конец Длина Последовательность Информация Описание
HELIX 5 7 3 KER

ID HUTP_BACSU_33; parent: HUTP_BACSU

FT HELIX 5 7

SQ Sequence 3 AA;

KER

//

Первая α-спираль цепи С состоит из 3-х а.о., а именно, лизина, глутамата, аргинина.
HELIX 9 17 9 IGRLSVLLL

ID HUTP_BACSU_34; parent: HUTP_BACSU

FT HELIX 9 17

SQ Sequence 9 AA;

IGRLSVLLL

//

Вторая α-спираль цепи С состоит из 9-и а.о., а именно, изолейцина, глицина, аргинина, лейцина, серина, валина, лейцина, лейцина, лейцина.
HELIX 26 32 7 QVEELER

ID HUTP_BACSU_35; parent: HUTP_BACSU

FT HELIX 26 32

SSQ Sequence 7 AA;

QVEELER

//

Третья α-спираль цепи С состоит из 7-и а.о., а именно, глутамина, валина, глутамата, глутамата, лейцина, глутамата, аргинина.
HELIX 47 60 14 AHKVVAAIET ASKK

ID ID HUTP_BACSU_37; parent: HUTP_BACSU

FT HELIX 47 60

SQ Sequence 14 AA;

AHKVVAAIET ASKK

//

Четвертая α-спираль цепи С состоит из 14-и а.о., а именно, аланина, гистидина, лизина, валина, валина, аланина, аланина, изолейцина, глутамата, аланина, серина, лизина, лизина.
HELIX 70 87 18 RESHALYHAT MEALHGVT

ID HUTP_BACSU_39; parent: HUTP_BACSU

FT HELIX 70 87

SQ Sequence 18 AA;

RESHALYHAT MEALHGVT

//

Пятая α-спираль цепи С состоит из 18-и а.о., а именно, аргинина, глутамата, серина, гистидина, аланина, лейцина, тирозина, гистидина, аланина, треонина, метионина, глутамата, алнина, лейцина, гистидина, глицина, валина, треонина.
HELIX 94 96 3 GSL

ID ID HUTP_BACSU_40; parent: HUTP_BACSU

FT HELIX 94 96

SQ Sequence 3 AA;

GSL

//

Шестая α-спираль цепи С состоит из 3-х а.о., а именно, глицина, серина, лейцина.
HELIX 115 117 3 EAE

ID HUTP_BACSU_43; parent: HUTP_BACSU

FT HELIX 115 117

SQ Sequence 3 AA;

EAE

//

Седьмая α-спираль цепи С состоит из 3-х а.о., а именно, глутамата, аланина, глутамата.

2. Получаю и сохраняю описание всех записей банка трехмерных структур PDB, относящихся к моему белку.

На странице находок обращаю внимание на окошко Apply options to слева. В нем указано к каким находкам буду применяться последующие действия: selected results only или unselected results only. Так как при поиске мне выдан только один результат: UniProtKB/Swiss-Prot:HUTP_BACSU - нет необходимости ставить галочку, а можно оставить unselected results only.

Перехожу по ссылке Link to related information, которая находится слева чуть ниже окошка Apply options to. Выбираю банк PDB. Его можно найти в Protein function, structure and interaction databases/Protein structure databases.

Жму Search, получаю список, сохраняю информацию по ссылке Save. Перед сохранением указываю сохранение в текстовом формате: Output To: File (text). Проверяю, что число Number of entries to download (по умолчанию у меня - 30) больше числа сохраняемых записей, Save with view установлено на PDBShortView (а можно было бы выбрать Complete entries, или fasta sequences, или др.).

Файл сохранен.

В нем содержится список из описания 11 структур, PDB ID которых: 3BOY, 1VEA, 1WMQ, 1WPS, 1WPT, 1WPU, 1WPV, 1WRN, 1WRO, 1WRQ, 2ZH0.

3. Нахожу полноразмерные белки из Firmicutes, выполняющие функцию, сходную с функцией моего белка.

Пользуясь SRS, составляю несколько запросов к банку Swissprot (при поиске выбирая UniProtKB/Swiss-Prot, затем Standard Query Form) и заполняю таблицу, приведенную ниже.

Строка запроса содержится в верхней части страницы с результатами, в окошке Query Form. Слова, входящие в описание моего белка, проиндексированы независимо друг от друга, поэтому имеет смысл вводить их по одному, соединяя знаком & .

В поле ID ввожу *!hutp_bacsu, чтобы сразу исключить мой белок и результатов поиска.

Чтобы исключить записи, содержащие лишь фрагмент последовательности, можно использовать оператор НО НЕ (!) и тот факт, что слово fragment указывается в поле DE (*!fragment). Составляю запросы и на все последовательности, и только на полноразмерные (не фрагменты).

Для проверки почему запрос не дает ожидаемого результата можно использовать ссылку i слева от строки запроса, в которой выбрано поле для поиска. Если в открывшееся окошко List values that match ввести искомое слово, и, при необходимости, "*" на конце, то можно получить полную информацию о его встречаемости в данном поле в данном банке.

Таблица встречаемости в SwissProt белков из Firmicutes , имеющих функцию, сходную с функцией белка HutP_Bacsu из Bacillus subtilis

Формулировка функции белка Строка запроса Количество найденных документов
Позитивный регулятор гистидинового оперона ([swissprot-Taxonomy:Firmicutes*] & (((([swissprot-Description:Hut*] & [swissprot-Description:operon*]) & [swissprot-Description:positive*]) & [swissprot-Description:regulatory*]) & [swissprot-Description:protein*])) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) 21
Позитивный регулятор гистидинового оперона ([swissprot-Taxonomy:Firmicutes*] & ((((([swissprot-Description:Hut*] & [swissprot-Description:operon*]) & [swissprot-Description:positive*]) & [swissprot-Description:regulatory*]) & [swissprot-Description:protein*]) ! [swissprot-Description:fragment*])) 20 (полноразмерные последовательности)
Антитерминатор, связывающийся с мРНК; Antiterminat*&bind*&mRNA ([swissprot-Taxonomy:Firmicutes*] & ((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) > parent )) 142
Антитерминатор, связывающийся с мРНК; Antiterminat*&bind*&mRNA (([swissprot-Taxonomy:Firmicutes*] & ((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) > parent )) & ([swissprot-Description:*] ! [swissprot-Description:fragment*])) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) 141 (полноразмерные последовательности)
Антитерминатор, связывающийся с мРНК, подавляя терминацию транскрипции; Antiterminat*&bind*&mRNA &suppress*&transcription&termination ([swissprot-Taxonomy:Firmicutes*] & (((((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) & [swissprot-Comment:suppress*]) & [swissprot-Comment:transcription*]) & [swissprot-Comment:termination*]) > parent )) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) 21
Антитерминатор, связывающийся с мРНК, подавляя терминацию транскрипции. Antiterminat*&bind*&mRNA &suppress*&transcription&termination (([swissprot-Taxonomy:Firmicutes*] & (((((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) & [swissprot-Comment:suppress*]) & [swissprot-Comment:transcription*]) & [swissprot-Comment:termination*]) > parent )) & ([swissprot-Description:*] ! [swissprot-Description:fragment*])) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) 20 (полноразмерные последовательности)
Антитерминатор, связывающийся с мРНК, инактивируя оперон для утилизации аминокислоты; Antiterminat*&bind*&mRNA &activat*&operon&utilizat* ([swissprot-Taxonomy:Firmicutes*] & (((((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) & [swissprot-Comment:activat*]) & [swissprot-Comment:operon*]) & [swissprot-Comment:utilizat*]) > parent )) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) 21
Антитерминатор, связывающийся с мРНК, инактивируя оперон для утилизации аминокислоты; Antiterminat*&bind*&mRNA &activat*&operon&utilizat* (([swissprot-Taxonomy:Firmicutes*] & (((((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) & [swissprot-Comment:activat*]) & [swissprot-Comment:operon*]) & [swissprot-Comment:utilizat*]) > parent )) & ([swissprot-Description:*] ! [swissprot-Description:fragment*])) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) 20 (полноразмерные последовательности)

4. Сохраняю полноразмерные последовательности найденных белков в fasta формате.

3 из 4-х запросов в случае моего белка дают одинаковый результат (его я буду рассматривать, взяв за основу первый запрос для полноразмерных последоваельностей), проверить это я могу, например, перейдя в окошко Results из верхнего меню и отметив галочкой нужный запрос из списка всех запросов, затем нажав Return query. Находок в случае моего белка 20 (больше 10), поэтому отмечаю галочками 10 из них, которые, на мой взгляд, более гомологичных моему белку. Затем сохраняю результаты как в пункте 2. При этом указываю текстовый формат и формат fasta-последовательностей (Output To: File (text); Save with view: FastaSeqs).

Полученный файл с последовательностями.

5. Сохраняю список последовательностей из задания 4, в котором указаны ID, AC последовательностей, организм (Species), название белка (Description) и длина последовательности (Sequence Length).

В стандартной форме запроса, ввожу прежний запрос. Ниже запроса в разделе Create a view выбираю нужные поля, Search Отмечаю те последовательности, которые были сохранены в fasta формате Сохраняю результат: Save, в файле с расширением .xls, представляющим из себя плоскую таблицу, которая открывается Excel. Заказанный вами вид таблицы называется SWISSPROT.

Полученная таблица.

6. Описываю изменения, произошедшие с записью моего белка от первого ее появления в банке Uniprot до последней версии.

Использую сервис expasy.org.

ExPASy - это расширяемый и пополняемый портал биоинформатических ресурсов при швейцарском институте биоинформатики (SIB - Swiss Institute of Bioinformatics), в частности его интернет команды. Предоставляет множество ресурсов, баз данных и программных средств, используемых в различных сферах научной деятельности.

Выбираю БД UniProt, ищу по идентификатору HUTP_BACSU. Поиск дал 1 результат. Попадаю на полную запись, прохожу по ссылке History. Выбираю ссылку с наиболее полной историей (Истории могут отличаться из-за изменения ID записи: по одному ID выдается история записи с этим ID, т.е. не вся история).

Используя сервис на странице History моей записи, описываю различия между первой и последней версии записи. Для этого ставлю для них маркеры ( в правой части записей) и жму Compare.

Результат сравнения.

Вместо скринштов привожу таблицу:

1-ая версия 93-яя версия
Даты создания 01-JUL-1989 (1-ое июля 1989 года) 22-FEB-2012 (22 февраля 2012 года)
Идентификаторы ID HUTP$BACSU HUTP_BACSU
Идентификаторы AC P10943 P10943
Изменения в последовательности

SEQUENCE 151 AA; 16545 MW; 117686 CN;

VIHMTLHKER RIGRLSVLLL LNEAEESTQV EELERDGWKV CLGKVGSMDA HKVVAAIETA

SKKSGVIQSE GYRESHALYH ATMEALHGVT RGEMLLGSLL RTVGLRFAVL RGNPYESEAE

GDWIAVSLYG TIGAPIKGLE HETFGVGINH I

SEQUENCE 148 AA; 16196 MW; 33876C6E8489116F CRC64;

MTLHKERRIG RLSVLLLLNE AEESTQVEEL ERDGWKVCLG KVGSMDAHKV VAAIETASKK

SGVIQSEGYR ESHALYHATM EALHGVTRGE MLLGSLLRTV GLRFAVLRGN PYESEAEGDW

IAVSLYGTIG APIKGLEHET FGVGINHI

SEQUENCE CAUTION:

Sequence=AAA22537.1; Type=Erroneous initiation;

Sequence=BAA06645.1; Type=Erroneous initiation;

Sequence=CAB15970.1; Type=Erroneous initiation

Поле KW TRANSCRIPTION REGULATION; ACTIVATOR; DNA-BINDING 3D-structure; Activator; Complete proteome; Direct protein sequencing; Histidine metabolism; Reference proteome; RNA-binding; Transcription; Transcription regulation
Поле FT Отсутствует 60 строк
Поле DR EMBL; M20659; BSHUT 48 строк

За 23 года в информации о моем белке было изменено и добавлено 217 строк. На мой взгляд, это довольно существенно. Особо важно уточение последовательности аминокислот, массы белка, его функции и структуры, а также появление данных в поле Feature Table.

7. Нахожу и изучаю страницу с описанием поля "Taxonomy" банка Swissprot.

В SRS на Library Page щелкаю по названию банка. Открывается страница с описанием банка. В нижней части этой страницы имеется список полей; названия полей оформлены как гиперссылки на их описания.

Вопрос 1. Названия каких таксонов начинаются на "bacil"?

Выбираю поле Taxonomy. Пишу в List values that match: bacil* и нажимаю List Values.

Получаю следующие названия таксонов:

  • bacillaceae
  • bacillales
  • bacillariaceae
  • bacillariales
  • bacillariophyceae
  • bacillariophycidae
  • bacillariophyta
  • bacillus

Вопрос 2. Сколько в банке Swissprot записей, описывающих белки из рода Bacillus?

При запросе, используемом в первом вопросе помимо названий таксонов для каждого из них выдается количество записей, описывающих принадлежащие им белки. Для рода Bacillus это 23088.

Вопрос 3. Сколько в банке Swissprot записей, описывающих белки из отдела Firmicutes?

Использую запрос аналогичный предыдущему: List values that match: Firmicutes и нажимаю List Values. Получаю 68036.

8. Описываю особенности сервиса MRS по сравнению с SRS.

MRS (от Maartens Retrieval System) - поисковая система среди биологических и медицинских баз данных; разработана и реализована Маартеном Хеккелманом; имеет открытый код.

MRS поиск очень похож на SRS (хотя предоставляемой информации меньше), разница в том, что запрос формируется вручную: логические операторы и «*» надо вводить самостоятельно сразу, без помощи удобного интерфейса Дефис «-» не считается буквой, а слова, написанные через черточку считаются отдельными словам. Если надо искать по конкретному полю, то его название вписывается в строку поиска.

Захожу на сайт mrs.cmbi.ru.nl.

Нахожу свою запись в Swissprot, для чего в окошке Search выбираю Swiss-Prot, в окошко for вношу id:hutp_bacsu или ac:P10943, нажимаю Enter.

Далее использую Find similar. Мне выдается 15 записей из 97112. Начинаются они белками с идентификаторами схожими с моим (начинающимися на hutp). Вначале расположены наиболее схожие последовательности. Длина, видимо, не влияет на порядок расположения. Вероятно, на порядок влияют функции белков, т.к. после hutp-белков идут белки с разнообразными идентификаторами, но схожими фуннкциями.

После отметки галочкой одной или нескольких находок появляется кнопка Download. Информацию можно загружать как Plain text и FastA. Вот, пример - данные о первых трех белках из моего списка: Plain text и FastA.

Недостаток - при переходе к следующей странице с результатами поиска, выделения на предыдущей не будут учитываться, т.е. нельзя одновременно, например, загружать файлы с нескольких страниц.

9. Нахожу записи SwissProt, связанные с научными интересами известного российского (советского) биолога А.А.Нейфаха.

С помощью экспериментов с символами'*' и '?' в словах запроса узнаю английское написание ФИО советского ученого: Neyfakh A.A. Далее в SRS, выбрав UniProtKB/Swiss-Prot и перейдя в Standard Query Form, в поле поиска References: Authors пишу Neyfakh,A.A., в качестве полей вывода выбираю Description,Refefrences: Title, Refefrences: Authors, Refefrences: Year, жму Search. Получаю 12 записей. Отмечаю те, в которых Нейфах - автор первой публикации. Получается 9 записей. Далее сохраняю табличку Excel (как в пункте 5), включающую описание белка, авторов, название и год публикации.

Нейфах занимался изучением генома Bacillus subtilis, ее ферментов и регуляции, что явно связано с одним из его интересов - генетическим контролем синтеза белков в эмбриогенезе.

10. Описываю несколько наиболее существенных отличий в формате записи моего белка в БД Protein на сайте NCBI от формата Uniprot.

NCBI (The National Center for Biotechnology Information) – организация, поддерживающая GeneBank (нуклеотидные последовательности) и ряд других важных баз данных молекулярной биологии. Включает базы данных, поддерживаемые в других местах, например, Uniprot и Swissprot.

Выбираю БД Protein и ищу по Uniprot идентификаторам моего белка (HUTP_BACSU).

Сравниваю формат записи в БД Protein на сайте NCBI с форматом Uniprot. Привожу некоторые отличия в виде таблицы:

БД Protein на сайте NCBI Uniprot
Записаны полные названия полей, не повторяющиеся на каждой строке (что гораздо удобнее для копирования, на мой взгляд). Записаны сокращенные (двухбуквенные) названия полей, повторяющиеся на каждой строке; немного иной порядок полей.
Названия некоторых полей отличны (от полных для Uniprot):
  1. LOCUS (дополнительно содержит дату последнего изменения)
  2. FEATURES (прилично отличается и форма приведения данных)
  3. ORIGIN, содержит последовательность в виде:

    1 mtlhkerrig rlsvllllne aeestqveel erdgwkvclg kvgsmdahkv vaaietaskk

    61 sgviqsegyr eshalyhatm ealhgvtrge mllgsllrtv glrfavlrgn pyeseaegdw

    121 iavslygtig apikglehet fgvginhi

Названия некоторых полей отличны:
  1. ID
  2. FT
  3. SQ, содержит:

    SEQUENCE 148 AA; 16196 MW; 33876C6E8489116F CRC64;

    MTLHKERRIG RLSVLLLLNE AEESTQVEEL ERDGWKVCLG KVGSMDAHKV VAAIETASKK

    SGVIQSEGYR ESHALYHATM EALHGVTRGE MLLGSLLRTV GLRFAVLRGN PYESEAEGDW

    IAVSLYGTIG APIKGLEHET FGVGINHI

    (заглавные буквы лучше воспринимаются как а.о.)
Названия статей в REFERENCE - TITLE даны без кавычек. Названия статей в RT даны в кавычках.

В целом, данные форматы похожи и интуитивно понятны. Формат Uniprot, как мне кажется, более компактный, зато на сайте NCBI можно пользоваться различными режимами просмотра (например, GenPept, Fasta и Graphics).


© Eugenia Prokhorova 2011