Учебный сайт Кирилла Цуканова → Второй семестр

Поисковые системы

1. Особенности белка

С помощью SRS найдем информацию об «особенностях» белковой последовательности. В этом белке есть «особенности» таких типов:

2. Записи в PDB

Нашлось 11 структур: 1VEA, 1WMQ, 1WPS, 1WPT, 1WPU, 1WPV, 1WRN, 1WRO, 1WRQ, 2ZH0, 3BOY. Сохраненный по ссылке Save файл.

3. Среди Firmicutes

Формулировки функции две: hut и hut operon positive regulatory protein. Запрос для всех: [swissprot-Description:hut] & [swissprot-Organism:firmicutes]) (22 результата). Запрос только не для фрагментов: [swissprot-Description:hut] ! [swissprot-Description:fragment*] & [swissprot-Organism:firmicutes]) (21 результат). Если использовать вместо первой формулировки функции вторую, будет всё то же самое. Если Firmicutes вообще не включать в запрос, то тоже ничего не изменится ;-)

4. Полноразмерные последовательности из PDB

Десять белков, сохраненные в fasta-формате. Я постарался выбрать их из разных видов и по возможности слегка разной длины, чтобы не получить множества совершенно одинаковых последовательностей.

5. Список

Перебором было установлено, что верное представление называется UniprotView. Результат в формате xls.

6. Изменения в записи

Expasy перенаправил на полную запись. История у белка одна, т. е. ID не менялся с течением времени. Всего у белка было 94 ревизии. Последовательность менялась 3 раза, всегда на начальном участке:

1  VIHMTLHKERR 1989-07-01
2  MIHMTLHKERR 1990-01-01
3  ----TLHKERR 2004-05-10
4  ---MTLHKERR 2007-01-23

Пояснений по поводу этих изменений в записях найти не удалось.

Сравним первую (01-JUL-1989) и последнюю (18-APR-2012) версии. AC как был, так и остался; ID изменился лишь HUTP$BACSU на HUTP_BACSU (перешли на новую систему наименования). Переносов между банками не было, белок с самого рождения был интегрирован в SwissProt. Ну а в остальном, заметен размах прогресса за последние десятилетия — первая версия представляет собой лишь краткое описание белка, а в последней — 6 ссылок на статьи, отсылка на записи в PDB, подробнейшее описание «фич», которые обсуждались выше, уточненная трижды последовательность. Если сравнивать те поля, что уже были в первой версии, можно отметить изменение номенклатуры. Было: PROKARYOTA; BACTERIA; ENDOSPORE-FORMING RODS AND COCCI; BACILLACEAE. Стало: Bacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus.

7. Taxonomy в SwissProt

Восемь таксонов в SwissProt начинаются с bacil*, они образуют две независимые цепочки: Bacillales (35730) ⊃ Bacillaceae (17888) ⊃ Bacillus (23100). Как так, спросит внимательный читатель? А я и сам не знаю, читатель, просто привожу данные из SRS. Если кликнуть по этим же пунктам, то выданные цифры будут вполне реальными: 35220, 17888 (надо же, сошлось), 15284.

Вот, а вторая независимая цепочка — это (в этот раз цифры совпали с реальными) Bacillariophyta (392) ⊃ Bacillariophyceae (125) ⊃ Bacillariophycidae (125) ⊃ Bacillariales (6) ⊃ Bacillariaceae (6).

Сколько в банке SwissProt белков из организмов рода Bacillus, ответить трудно. С одной стороны, их 23100, если верить запросу по полю Taxonomy в описании банка SwissProt в SRS. С другой стороны, если сделать из SRS прямой запрос (по полю taxonomy), то их 15284. Правильный ответ, очевидно, последний, потому что поиск прямо по сайту uniprot.org его подтверждает.

Из Firmicutes — 68103 записи.

8. MRS

По запросу id:hutp_bacsu показывается запись в практически таком же представлении, как и на сайте UniProt (ну а чего еще ожидать). Как работает кнопка Find similar, можно попробовать сейчас разобраться. Всего на HUTP_BACSU он находит 100803 (sic!) «похожих» белка. Причем выдает их по 15 на страницу, и изменить это никак нельзя. В общем-то, на этом знакомство с сервисом можно и заканчивать, крайнее неуважение к пользователю.

В общем-то, внизу каждого найденного белка он пишет «references», в основном это Pfam и InterPro, то есть выдает он белки, очевидно, имеющие схожие домены с исходным или что-то в этом духе. Сначала идут совершенно гомологичные белки — HUTP_*. Любопытно, что сам HUTP_BACSU оказался только на 13-м месте. В references почти везде стоит Pfam A. Ну а дальше начинаются разные белки, схожие с исходным по мнению разных баз профилей и паттернов.

И находки с разных страниц он, таки да, скачать не позволяет. Общее впечатление и итог: кривоватый и странный сервис, я не нашел в нем ничего, чего не умел бы намного лучше SRS.

9. Нейфах

Чтобы ограничить выдачу только теми белками, где Нейфах — автор именно первой публикации, воспользуемся формой расширенного поиска, где укажем автора (Neyfakh) и RefNumber (1). Там же создадим требуемое представление, отметив нужные поля. После этого пользоваться чекбоксами уже не придется. К сожалению, заставить SRS отображать в выдаче только первые публикации мне так и не удалось, всё лишнее пришлось удалить уже позже в табличном процессоре. Запрос: (([swissprot-Authors:neyfakh*] & [swissprot-RefNumber#1:1]) > parent ), таблица в xls.

10. Отличия форматов баз данных Proteins и UniProt

Ссылка на NCBI, ссылка на UniProt. В базе NCBI другие названия полей (надо признать, более человекочитаемые); присутствует раздел DBSOURCE, где одним скопом собраны сразу все ссылки на внешние базы данных; для каждого поля REFERENCE дополнительно указано, к каким остаткам применима эта ссылка (что неплохо так весьма); в остальном всё совпадает.