Поисковые системы
1. С помощью SRS нахожу свой белок в банке SwissProt и описываю не менее трех "особенностей" (features) в его аминокислотной последовательности.
Захожу на сайт поисковой системы SRS: srs.ebi.ac.uk
SRS (от Sequence Retrieval System) - база данных, используемая для просмотра разнообразных биологических последовательностей и литературы из баз данных доступных для EBI (от European Bioinformatics Institute).
На странице Library page отмечаю UniPRotKB/Swiss-Prot, выбираю Standard Query Form. В одном из полей запроса выбираю ID и вношу в окошко идентификатор моего белка HUTP_BACSU (или выбираю Accession Number и вношу в окошко код доступа белка P10943). Нажмимаю Search.
Следую по гиперссылке в левом столбце таблицы.
Выбираю особенности (поле Feature Table), относящиеся к целым участкам, а не к одному остатку, прохожу по гиперссылкам для их просмотра, сохраняю информацию и привожу объяснения.
Для моего белка данные особенности представлены для вторичной структуры, как я поняла, цепи C. Именно эта цепь моего белка включает 7 α-спиралей, в то время как A и B цепи - по 6. Дополнительно сравнив приведенную информацию с данными из PDB файла (PDB ID: 1WPV), убеждаюсь в этом.
Приведу описание α-спиралей:
Указание | Начало | Конец | Длина | Последовательность | Информация | Описание |
HELIX | 5 | 7 | 3 | KER | ID HUTP_BACSU_33; parent: HUTP_BACSU FT HELIX 5 7 SQ Sequence 3 AA; KER // |
Первая α-спираль цепи С состоит из 3-х а.о., а именно, лизина, глутамата, аргинина. |
HELIX | 9 | 17 | 9 | IGRLSVLLL | ID HUTP_BACSU_34; parent: HUTP_BACSU FT HELIX 9 17 SQ Sequence 9 AA; IGRLSVLLL // |
Вторая α-спираль цепи С состоит из 9-и а.о., а именно, изолейцина, глицина, аргинина, лейцина, серина, валина, лейцина, лейцина, лейцина. |
HELIX | 26 | 32 | 7 | QVEELER | ID HUTP_BACSU_35; parent: HUTP_BACSU FT HELIX 26 32 SSQ Sequence 7 AA; QVEELER // |
Третья α-спираль цепи С состоит из 7-и а.о., а именно, глутамина, валина, глутамата, глутамата, лейцина, глутамата, аргинина. |
HELIX | 47 | 60 | 14 | AHKVVAAIET ASKK | ID ID HUTP_BACSU_37; parent: HUTP_BACSU FT HELIX 47 60 SQ Sequence 14 AA; AHKVVAAIET ASKK // |
Четвертая α-спираль цепи С состоит из 14-и а.о., а именно, аланина, гистидина, лизина, валина, валина, аланина, аланина, изолейцина, глутамата, аланина, серина, лизина, лизина. |
HELIX | 70 | 87 | 18 | RESHALYHAT MEALHGVT | ID HUTP_BACSU_39; parent: HUTP_BACSU FT HELIX 70 87 SQ Sequence 18 AA; RESHALYHAT MEALHGVT // |
Пятая α-спираль цепи С состоит из 18-и а.о., а именно, аргинина, глутамата, серина, гистидина, аланина, лейцина, тирозина, гистидина, аланина, треонина, метионина, глутамата, алнина, лейцина, гистидина, глицина, валина, треонина. |
HELIX | 94 | 96 | 3 | GSL | ID ID HUTP_BACSU_40; parent: HUTP_BACSU FT HELIX 94 96 SQ Sequence 3 AA; GSL // |
Шестая α-спираль цепи С состоит из 3-х а.о., а именно, глицина, серина, лейцина. |
HELIX | 115 | 117 | 3 | EAE | ID HUTP_BACSU_43; parent: HUTP_BACSU FT HELIX 115 117 SQ Sequence 3 AA; EAE // |
Седьмая α-спираль цепи С состоит из 3-х а.о., а именно, глутамата, аланина, глутамата. |
2. Получаю и сохраняю описание всех записей банка трехмерных структур PDB, относящихся к моему белку.
На странице находок обращаю внимание на окошко Apply options to слева. В нем указано к каким находкам буду применяться последующие действия: selected results only или unselected results only. Так как при поиске мне выдан только один результат: UniProtKB/Swiss-Prot:HUTP_BACSU - нет необходимости ставить галочку, а можно оставить unselected results only.
Перехожу по ссылке Link to related information, которая находится слева чуть ниже окошка Apply options to. Выбираю банк PDB. Его можно найти в Protein function, structure and interaction databases/Protein structure databases.
Жму Search, получаю список, сохраняю информацию по ссылке Save. Перед сохранением указываю сохранение в текстовом формате: Output To: File (text). Проверяю, что число Number of entries to download (по умолчанию у меня - 30) больше числа сохраняемых записей, Save with view установлено на PDBShortView (а можно было бы выбрать Complete entries, или fasta sequences, или др.).
Файл сохранен.
В нем содержится список из описания 11 структур, PDB ID которых: 3BOY, 1VEA, 1WMQ, 1WPS, 1WPT, 1WPU, 1WPV, 1WRN, 1WRO, 1WRQ, 2ZH0.
3. Нахожу полноразмерные белки из Firmicutes, выполняющие функцию, сходную с функцией моего белка.
Пользуясь SRS, составляю несколько запросов к банку Swissprot (при поиске выбирая UniProtKB/Swiss-Prot, затем Standard Query Form) и заполняю таблицу, приведенную ниже.
Строка запроса содержится в верхней части страницы с результатами, в окошке Query Form. Слова, входящие в описание моего белка, проиндексированы независимо друг от друга, поэтому имеет смысл вводить их по одному, соединяя знаком & .
В поле ID ввожу *!hutp_bacsu, чтобы сразу исключить мой белок и результатов поиска.
Чтобы исключить записи, содержащие лишь фрагмент последовательности, можно использовать оператор НО НЕ (!) и тот факт, что слово fragment указывается в поле DE (*!fragment). Составляю запросы и на все последовательности, и только на полноразмерные (не фрагменты).
Для проверки почему запрос не дает ожидаемого результата можно использовать ссылку i слева от строки запроса, в которой выбрано поле для поиска. Если в открывшееся окошко List values that match ввести искомое слово, и, при необходимости, "*" на конце, то можно получить полную информацию о его встречаемости в данном поле в данном банке.
Таблица встречаемости в SwissProt белков из Firmicutes , имеющих функцию, сходную с функцией белка HutP_Bacsu из Bacillus subtilis
Формулировка функции белка | Строка запроса | Количество найденных документов |
Позитивный регулятор гистидинового оперона | ([swissprot-Taxonomy:Firmicutes*] & (((([swissprot-Description:Hut*] & [swissprot-Description:operon*]) & [swissprot-Description:positive*]) & [swissprot-Description:regulatory*]) & [swissprot-Description:protein*])) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) | 21 |
Позитивный регулятор гистидинового оперона | ([swissprot-Taxonomy:Firmicutes*] & ((((([swissprot-Description:Hut*] & [swissprot-Description:operon*]) & [swissprot-Description:positive*]) & [swissprot-Description:regulatory*]) & [swissprot-Description:protein*]) ! [swissprot-Description:fragment*])) | 20 (полноразмерные последовательности) |
Антитерминатор, связывающийся с мРНК; Antiterminat*&bind*&mRNA | ([swissprot-Taxonomy:Firmicutes*] & ((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) > parent )) | 142 |
Антитерминатор, связывающийся с мРНК; Antiterminat*&bind*&mRNA | (([swissprot-Taxonomy:Firmicutes*] & ((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) > parent )) & ([swissprot-Description:*] ! [swissprot-Description:fragment*])) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) | 141 (полноразмерные последовательности) |
Антитерминатор, связывающийся с мРНК, подавляя терминацию транскрипции; Antiterminat*&bind*&mRNA &suppress*&transcription&termination | ([swissprot-Taxonomy:Firmicutes*] & (((((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) & [swissprot-Comment:suppress*]) & [swissprot-Comment:transcription*]) & [swissprot-Comment:termination*]) > parent )) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) | 21 |
Антитерминатор, связывающийся с мРНК, подавляя терминацию транскрипции. Antiterminat*&bind*&mRNA &suppress*&transcription&termination | (([swissprot-Taxonomy:Firmicutes*] & (((((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) & [swissprot-Comment:suppress*]) & [swissprot-Comment:transcription*]) & [swissprot-Comment:termination*]) > parent )) & ([swissprot-Description:*] ! [swissprot-Description:fragment*])) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) | 20 (полноразмерные последовательности) |
Антитерминатор, связывающийся с мРНК, инактивируя оперон для утилизации аминокислоты; Antiterminat*&bind*&mRNA &activat*&operon&utilizat* | ([swissprot-Taxonomy:Firmicutes*] & (((((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) & [swissprot-Comment:activat*]) & [swissprot-Comment:operon*]) & [swissprot-Comment:utilizat*]) > parent )) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) | 21 |
Антитерминатор, связывающийся с мРНК, инактивируя оперон для утилизации аминокислоты; Antiterminat*&bind*&mRNA &activat*&operon&utilizat* | (([swissprot-Taxonomy:Firmicutes*] & (((((([swissprot-Comment:Antiterminat*] & [swissprot-Comment:bind*]) & [swissprot-Comment:mRNA*]) & [swissprot-Comment:activat*]) & [swissprot-Comment:operon*]) & [swissprot-Comment:utilizat*]) > parent )) & ([swissprot-Description:*] ! [swissprot-Description:fragment*])) & ([swissprot-ID:*] ! [swissprot-ID:hutp_bacsu*])) | 20 (полноразмерные последовательности) |
4. Сохраняю полноразмерные последовательности найденных белков в fasta формате.
3 из 4-х запросов в случае моего белка дают одинаковый результат (его я буду рассматривать, взяв за основу первый запрос для полноразмерных последоваельностей), проверить это я могу, например, перейдя в окошко Results из верхнего меню и отметив галочкой нужный запрос из списка всех запросов, затем нажав Return query. Находок в случае моего белка 20 (больше 10), поэтому отмечаю галочками 10 из них, которые, на мой взгляд, более гомологичных моему белку. Затем сохраняю результаты как в пункте 2. При этом указываю текстовый формат и формат fasta-последовательностей (Output To: File (text); Save with view: FastaSeqs).
Полученный файл с последовательностями.
5. Сохраняю список последовательностей из задания 4, в котором указаны ID, AC последовательностей, организм (Species), название белка (Description) и длина последовательности (Sequence Length).
В стандартной форме запроса, ввожу прежний запрос. Ниже запроса в разделе Create a view выбираю нужные поля, Search Отмечаю те последовательности, которые были сохранены в fasta формате Сохраняю результат: Save, в файле с расширением .xls, представляющим из себя плоскую таблицу, которая открывается Excel. Заказанный вами вид таблицы называется SWISSPROT.
6. Описываю изменения, произошедшие с записью моего белка от первого ее появления в банке Uniprot до последней версии.
Использую сервис expasy.org.
ExPASy - это расширяемый и пополняемый портал биоинформатических ресурсов при швейцарском институте биоинформатики (SIB - Swiss Institute of Bioinformatics), в частности его интернет команды. Предоставляет множество ресурсов, баз данных и программных средств, используемых в различных сферах научной деятельности.
Выбираю БД UniProt, ищу по идентификатору HUTP_BACSU. Поиск дал 1 результат. Попадаю на полную запись, прохожу по ссылке History. Выбираю ссылку с наиболее полной историей (Истории могут отличаться из-за изменения ID записи: по одному ID выдается история записи с этим ID, т.е. не вся история).
Используя сервис на странице History моей записи, описываю различия между первой и последней версии записи. Для этого ставлю для них маркеры ( в правой части записей) и жму Compare.
Вместо скринштов привожу таблицу:
1-ая версия | 93-яя версия | |
Даты создания | 01-JUL-1989 (1-ое июля 1989 года) | 22-FEB-2012 (22 февраля 2012 года) |
Идентификаторы ID | HUTP$BACSU | HUTP_BACSU |
Идентификаторы AC | P10943 | P10943 |
Изменения в последовательности | SEQUENCE 151 AA; 16545 MW; 117686 CN; VIHMTLHKER RIGRLSVLLL LNEAEESTQV EELERDGWKV CLGKVGSMDA HKVVAAIETA SKKSGVIQSE GYRESHALYH ATMEALHGVT RGEMLLGSLL RTVGLRFAVL RGNPYESEAE GDWIAVSLYG TIGAPIKGLE HETFGVGINH I |
SEQUENCE 148 AA; 16196 MW; 33876C6E8489116F CRC64; MTLHKERRIG RLSVLLLLNE AEESTQVEEL ERDGWKVCLG KVGSMDAHKV VAAIETASKK SGVIQSEGYR ESHALYHATM EALHGVTRGE MLLGSLLRTV GLRFAVLRGN PYESEAEGDW IAVSLYGTIG APIKGLEHET FGVGINHI SEQUENCE CAUTION: Sequence=AAA22537.1; Type=Erroneous initiation; Sequence=BAA06645.1; Type=Erroneous initiation; Sequence=CAB15970.1; Type=Erroneous initiation |
Поле KW | TRANSCRIPTION REGULATION; ACTIVATOR; DNA-BINDING | 3D-structure; Activator; Complete proteome; Direct protein sequencing; Histidine metabolism; Reference proteome; RNA-binding; Transcription; Transcription regulation |
Поле FT | Отсутствует | 60 строк |
Поле DR | EMBL; M20659; BSHUT | 48 строк |
За 23 года в информации о моем белке было изменено и добавлено 217 строк. На мой взгляд, это довольно существенно. Особо важно уточение последовательности аминокислот, массы белка, его функции и структуры, а также появление данных в поле Feature Table.
7. Нахожу и изучаю страницу с описанием поля "Taxonomy" банка Swissprot.
В SRS на Library Page щелкаю по названию банка. Открывается страница с описанием банка. В нижней части этой страницы имеется список полей; названия полей оформлены как гиперссылки на их описания.
Вопрос 1. Названия каких таксонов начинаются на "bacil"?
Выбираю поле Taxonomy. Пишу в List values that match: bacil* и нажимаю List Values.
Получаю следующие названия таксонов:
- bacillaceae
- bacillales
- bacillariaceae
- bacillariales
- bacillariophyceae
- bacillariophycidae
- bacillariophyta
- bacillus
Вопрос 2. Сколько в банке Swissprot записей, описывающих белки из рода Bacillus?
При запросе, используемом в первом вопросе помимо названий таксонов для каждого из них выдается количество записей, описывающих принадлежащие им белки. Для рода Bacillus это 23088.
Вопрос 3. Сколько в банке Swissprot записей, описывающих белки из отдела Firmicutes?
Использую запрос аналогичный предыдущему: List values that match: Firmicutes и нажимаю List Values. Получаю 68036.
8. Описываю особенности сервиса MRS по сравнению с SRS.
MRS (от Maartens Retrieval System) - поисковая система среди биологических и медицинских баз данных; разработана и реализована Маартеном Хеккелманом; имеет открытый код.
MRS поиск очень похож на SRS (хотя предоставляемой информации меньше), разница в том, что запрос формируется вручную: логические операторы и «*» надо вводить самостоятельно сразу, без помощи удобного интерфейса Дефис «-» не считается буквой, а слова, написанные через черточку считаются отдельными словам. Если надо искать по конкретному полю, то его название вписывается в строку поиска.
Захожу на сайт mrs.cmbi.ru.nl.
Нахожу свою запись в Swissprot, для чего в окошке Search выбираю Swiss-Prot, в окошко for вношу id:hutp_bacsu или ac:P10943, нажимаю Enter.
Далее использую Find similar. Мне выдается 15 записей из 97112. Начинаются они белками с идентификаторами схожими с моим (начинающимися на hutp). Вначале расположены наиболее схожие последовательности. Длина, видимо, не влияет на порядок расположения. Вероятно, на порядок влияют функции белков, т.к. после hutp-белков идут белки с разнообразными идентификаторами, но схожими фуннкциями.
После отметки галочкой одной или нескольких находок появляется кнопка Download. Информацию можно загружать как Plain text и FastA. Вот, пример - данные о первых трех белках из моего списка: Plain text и FastA.
Недостаток - при переходе к следующей странице с результатами поиска, выделения на предыдущей не будут учитываться, т.е. нельзя одновременно, например, загружать файлы с нескольких страниц.
9. Нахожу записи SwissProt, связанные с научными интересами известного российского (советского) биолога А.А.Нейфаха.
С помощью экспериментов с символами'*' и '?' в словах запроса узнаю английское написание ФИО советского ученого: Neyfakh A.A. Далее в SRS, выбрав UniProtKB/Swiss-Prot и перейдя в Standard Query Form, в поле поиска References: Authors пишу Neyfakh,A.A., в качестве полей вывода выбираю Description,Refefrences: Title, Refefrences: Authors, Refefrences: Year, жму Search. Получаю 12 записей. Отмечаю те, в которых Нейфах - автор первой публикации. Получается 9 записей. Далее сохраняю табличку Excel (как в пункте 5), включающую описание белка, авторов, название и год публикации.
Нейфах занимался изучением генома Bacillus subtilis, ее ферментов и регуляции, что явно связано с одним из его интересов - генетическим контролем синтеза белков в эмбриогенезе.
10. Описываю несколько наиболее существенных отличий в формате записи моего белка в БД Protein на сайте NCBI от формата Uniprot.
NCBI (The National Center for Biotechnology Information) – организация, поддерживающая GeneBank (нуклеотидные последовательности) и ряд других важных баз данных молекулярной биологии. Включает базы данных, поддерживаемые в других местах, например, Uniprot и Swissprot.Выбираю БД Protein и ищу по Uniprot идентификаторам моего белка (HUTP_BACSU).
Сравниваю формат записи в БД Protein на сайте NCBI с форматом Uniprot. Привожу некоторые отличия в виде таблицы:
БД Protein на сайте NCBI | Uniprot |
Записаны полные названия полей, не повторяющиеся на каждой строке (что гораздо удобнее для копирования, на мой взгляд). | Записаны сокращенные (двухбуквенные) названия полей, повторяющиеся на каждой строке; немного иной порядок полей. |
Названия некоторых полей отличны (от полных для Uniprot):
|
Названия некоторых полей отличны:
|
Названия статей в REFERENCE - TITLE даны без кавычек. | Названия статей в RT даны в кавычках. |
В целом, данные форматы похожи и интуитивно понятны. Формат Uniprot, как мне кажется, более компактный, зато на сайте NCBI можно пользоваться различными режимами просмотра (например, GenPept, Fasta и Graphics).
© Eugenia Prokhorova 2011