1. Особенности белка
С помощью SRS найдем информацию об «особенностях» белковой последовательности. В этом белке есть «особенности» таких типов:
INIT_MET
— начальный метионин, который удаляется после синтеза белкаCHAIN
— собственно, итоговая последовательность белка (остатки с 2 по 148)MUTAGEN
(встречается 30 раз) — точечные мутации, некоторые из которых влияют на способность белка связываться с иРНК (его основная функция), например, замена I→A в 9 остатке приводит к значительному снижению связыванияHELIX
(7 раз) — альфа-спирали, например,RESHALYHATMEALHGVT
с 70 по 87STRAND
(6 раз) — бета-тяжи, например,TVGLRFAVLRG
с 99 по 109.
2. Записи в PDB
Нашлось 11 структур: 1VEA, 1WMQ, 1WPS, 1WPT, 1WPU, 1WPV, 1WRN, 1WRO, 1WRQ, 2ZH0, 3BOY. Сохраненный по ссылке Save файл.
3. Среди Firmicutes
Формулировки функции две: hut
и hut operon positive regulatory protein
. Запрос для всех: [swissprot-Description:hut] & [swissprot-Organism:firmicutes])
(22 результата). Запрос только не для фрагментов: [swissprot-Description:hut] ! [swissprot-Description:fragment*] & [swissprot-Organism:firmicutes])
(21 результат). Если использовать вместо первой формулировки функции вторую, будет всё то же самое. Если Firmicutes вообще не включать в запрос, то тоже ничего не изменится ;-)
4. Полноразмерные последовательности из PDB
Десять белков, сохраненные в fasta-формате. Я постарался выбрать их из разных видов и по возможности слегка разной длины, чтобы не получить множества совершенно одинаковых последовательностей.
5. Список
Перебором было установлено, что верное представление называется UniprotView
. Результат в формате xls
.
6. Изменения в записи
Expasy перенаправил на полную запись. История у белка одна, т. е. ID не менялся с течением времени. Всего у белка было 94 ревизии. Последовательность менялась 3 раза, всегда на начальном участке:
1 VIHMTLHKERR 1989-07-01 2 MIHMTLHKERR 1990-01-01 3 ----TLHKERR 2004-05-10 4 ---MTLHKERR 2007-01-23
Пояснений по поводу этих изменений в записях найти не удалось.
Сравним первую (01-JUL-1989) и последнюю (18-APR-2012) версии. AC как был, так и остался; ID изменился лишь HUTP$BACSU на HUTP_BACSU (перешли на новую систему наименования). Переносов между банками не было, белок с самого рождения был интегрирован в SwissProt. Ну а в остальном, заметен размах прогресса за последние десятилетия — первая версия представляет собой лишь краткое описание белка, а в последней — 6 ссылок на статьи, отсылка на записи в PDB, подробнейшее описание «фич», которые обсуждались выше, уточненная трижды последовательность. Если сравнивать те поля, что уже были в первой версии, можно отметить изменение номенклатуры. Было: PROKARYOTA; BACTERIA; ENDOSPORE-FORMING RODS AND COCCI; BACILLACEAE. Стало: Bacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus.
7. Taxonomy в SwissProt
Восемь таксонов в SwissProt начинаются с bacil*, они образуют две независимые цепочки: Bacillales (35730) ⊃ Bacillaceae (17888) ⊃ Bacillus (23100). Как так, спросит внимательный читатель? А я и сам не знаю, читатель, просто привожу данные из SRS. Если кликнуть по этим же пунктам, то выданные цифры будут вполне реальными: 35220, 17888 (надо же, сошлось), 15284.
Вот, а вторая независимая цепочка — это (в этот раз цифры совпали с реальными) Bacillariophyta (392) ⊃ Bacillariophyceae (125) ⊃ Bacillariophycidae (125) ⊃ Bacillariales (6) ⊃ Bacillariaceae (6).
Сколько в банке SwissProt белков из организмов рода Bacillus, ответить трудно. С одной стороны, их 23100, если верить запросу по полю Taxonomy в описании банка SwissProt в SRS. С другой стороны, если сделать из SRS прямой запрос (по полю taxonomy), то их 15284. Правильный ответ, очевидно, последний, потому что поиск прямо по сайту uniprot.org его подтверждает.
Из Firmicutes — 68103 записи.
8. MRS
По запросу id:hutp_bacsu
показывается запись в практически таком же представлении, как и на сайте UniProt (ну а чего еще ожидать). Как работает кнопка Find similar, можно попробовать сейчас разобраться. Всего на HUTP_BACSU он находит 100803 (sic!) «похожих» белка. Причем выдает их по 15 на страницу, и изменить это никак нельзя. В общем-то, на этом знакомство с сервисом можно и заканчивать, крайнее неуважение к пользователю.
В общем-то, внизу каждого найденного белка он пишет «references», в основном это Pfam и InterPro, то есть выдает он белки, очевидно, имеющие схожие домены с исходным или что-то в этом духе. Сначала идут совершенно гомологичные белки — HUTP_*. Любопытно, что сам HUTP_BACSU оказался только на 13-м месте. В references почти везде стоит Pfam A. Ну а дальше начинаются разные белки, схожие с исходным по мнению разных баз профилей и паттернов.
И находки с разных страниц он, таки да, скачать не позволяет. Общее впечатление и итог: кривоватый и странный сервис, я не нашел в нем ничего, чего не умел бы намного лучше SRS.
9. Нейфах
Чтобы ограничить выдачу только теми белками, где Нейфах — автор именно первой публикации, воспользуемся формой расширенного поиска, где укажем автора (Neyfakh) и RefNumber (1). Там же создадим требуемое представление, отметив нужные поля. После этого пользоваться чекбоксами уже не придется. К сожалению, заставить SRS отображать в выдаче только первые публикации мне так и не удалось, всё лишнее пришлось удалить уже позже в табличном процессоре. Запрос: (([swissprot-Authors:neyfakh*] & [swissprot-RefNumber#1:1]) > parent )
, таблица в xls.
10. Отличия форматов баз данных Proteins и UniProt
Ссылка на NCBI, ссылка на UniProt. В базе NCBI другие названия полей (надо признать, более человекочитаемые); присутствует раздел DBSOURCE, где одним скопом собраны сразу все ссылки на внешние базы данных; для каждого поля REFERENCE дополнительно указано, к каким остаткам применима эта ссылка (что неплохо так весьма); в остальном всё совпадает.