На данной странице вы можете ознакомиться с моими результатами работы с базой данных Uniprot. В Таблице 1 представлена информация, найденная на сайте Uniprot; информация об этом белке была найдена с помощью идентификатора CDS: ALV47246.1, и использования сервиса "Retrieve/ID mapping" на сайте Uniprot. Пройдя по ссылке, вы сами сможете узнать больше о структуре, строении данного белка, а также о публикациях, посвященных ему.

Таблица 1. Информация, полученная с сайта Uniprot.
Uniprot ID A0A0U3QKR4_9MICC
Uniprot AC A0A0U3QKR4
Refseq ID WP_044575648.1
PDB ID -
Length of protein 444 AA
Molecular weight 49716
SubName (Full) Alpha-L-fucosidase {ECO:0000313|EMBL:ALV47246.1}

Комментарии к таблице

Согласно данным, полученным с сайта Uniprot, исследованный белок носит название α-L-фукозидаза (Alpha-L-fucosidase). Он характерен для организма Arthrobacter sp. A3 из рода Arthrobacter, штамм A3. Этот белок является предсказанным и не аннотированным, поэтому информации о нём почти нет, а та, какая имеется не была подстверждена (в поле PE стоит цифра 4). Впервые белок был занесён в базы данных EMBL/GenBank/DDBJ в декабре 2015 года, а в UniProtKB/TrEMBL информация о его последовательности появилась 16 марта 2016 года. Рекомендованного названия для него нет, поэтому в Таблице 1 я указала SubName, также нет информации и о PDB ID, поэтому в этой графе в таблице прочерк. Как написано в базе Uniprot, данный белок синтезируется с использованием информации, записанной на геномной ДНК, и его длина составляет 444 аминокислотных остатка [1].

Описание кластеров Uniref

Ниже представлена информация о справочных кластерах Uniprot (UniRef) при 100%, 90% и 50% идентичности последовательностей:

  1. UniRef50 составляется путем группировки последовательностей, идентичных последовательностям кластера UniRef90, которые имеют, по меньшей мере, 50%-ное сходство последовательностей и на 80% перекрываются с самой длинной последовательностью в кластере. ID кластера - UniRef50_J7LZN, имя кластера - Plasma alpha-L-fucosidase Fuca. В него включены 246 последовательностей, длина которых варьирует от 401 до 476 аминокислотных остатков. Данные белки встречаются у разных видов бактерий, совсем необязательно родственных Arthrobacter sp. A3.

  2. Uniref90 составляется из последовательностей, идентичных последовательностям кластера Uniref100 и имеющих с ними не менее 90% сходства в общем, а в частности, не менее, чем на 80% перекрываются с самой длинной из них. ID кластера - UniRef90_A0A0U3QKR4, имя кластера - Alpha-L-fucosidase. В него входит 2 последовательности, причем одна из них - ранее изученная последовательность, данные о которой представлены в таблице, а вторая была исключена из базы данных UniProtKB, однако информацию о ней всё ещё можно получить из других баз данных.

  3. Uniref100 объединяет идентичные последовательности или суб-фрагменты из любого организма с 11 или более остатками, которые являются последовательностями. ID кластера - UniRef100_A0A0U3QKR4, имя кластера - Alpha-L-fucosidase. Кластер состоит из одной последовательности, которая ранее была мной изучена.

История изменений записи Uniprot

В базе данных Uniprot есть возможность изучить историю изменений записей. Так, мною была изучена история изменения записей об Alpha-L-fucosidase. В настоящий момент доступна для пользователей пятая версия записи. Относително первой произошли серьёзные изменения такие, как: добавились новые идентификаторы штамма, ссылки на последовательности белка и нуклеотидные последовательности, записанные в других базах данных, а также идентификатор, с помощью которого можно изучить полный протеом данного штамма. В первой версии широкая аудитория была ограничена лишь небольшим количсетвом источников и ссылок на другие базы данных в поле DR, и по мере разработки новых версий появлялось всё большее их количество. Причем самые большие изменения произошли при переходе от первой ко второй версии (добавилось наибольшее число ссылок). При переходе к третьей версии добавилось поле с ключевыми словами (KW), которое в дальнейшем только пополнялось данными. На основании всего вышесказанного можно заключить, что с течением времени количество информации только увеличивается, а объём данных в базах растёт.

Результаты поиска по Uniprot

  • Поиск: name:"alpha l fucosidase" (Использовано SubName)
    Результаты: найдено 5953 белков, из них 18 из раздела Reviewed. Длина варьирует от 15 до 2533 аминокислотных остатков. Причем такое название встречается у 5 последовательностей, изученных у Homo sapiens.

  • Поиск: name:"alpha l fucosidase" organism:"arthrobacter sp a3"
    Результаты: найдено 2 белка, из них 0 из раздела Reviewed. Длиной 444 и 454 аминокислотных остатка. Первый - ранее изученный, а второй - также предсказанный сходный белок.

  • Поиск: name:"alpha l fucosidase" taxonomy:"Micrococcaceae [1268]"
    Результаты: найдено 39 белков, из них 0 из раздела Reviewed. Длина варьирует от 63 до 781 аминокислотного остатка.

  • Поиск: name:"alpha l fucosidase" taxonomy:"Actinobacteria [201174]"
    Результаты: найдено 910 белков, из них 0 из раздела Reviewed. Длина варьирует от 26 до 1959 аминокислотных остатков.

По результатам серии поисковых запросов можно заключить, что данный белок был плохо изучен и в подавляющем большинстве встречается у различных организмов, в том числе, примерно 15,3% от общего числа изученных последовательностей приходится на отдел Actinobacteria.

  1. Поиск по названию "гистон":

    • Поиск: name:histone
      Результаты: найдено 99472 белков, из них 2064 из раздела Reviewed. Самый популярный организм для исследования - Homo sapiens (635).

    • Поиск: name:histone taxonomy:"Fungi [4751]"
      Результаты: найдено 18374 белков, из них 503 из раздела Reviewed. Самый популярный организм для исследования - Saccharomyces cerevisiae (58).

    • Поиск: name:histone taxonomy:"Arthropoda [6656]"
      Результаты: найдено 24394 белков, из них 138 из раздела Reviewed. Самый популярный организм для исследования - Drosophila melanogaster (144).

  2. Поиск по названию "трипсин":

    • Поиск: name:trypsin
      Результаты: найдено 13241 белков, из них 310 из раздела Reviewed. Самый популярный организма для исследования - Homo sapiens (65).

    • Поиск: name:trypsin name:inhibitor
      Результаты: найдено 2962 белков, из них 209 из раздела Reviewed.

    Результат данного поиска свидетельствует о том, что около 22,4% от общего числа изученных белков приходится на ингибиторы трипсина, которые при первом поисковом запросе были включены в результат. Данные о рецензировании свидетельствуют о высоком интересе исследователей ингибиторами трипсина.

Сравнение данных в базах Uniprot и RefSeq

По этой ссылке вы можете озаномиться с описанием α-L-фукозидазы в базе данных RefSeq Protein. Сопоставляя данные из различных источников, можно увидеть, что:

  1. В отличие от Uniprot в RefSeq столбцы, которые поясняют информацию, приведённую в строках, являются не сокращениями, а полноценными словами, что облегчает восприятие информации для непосвященного и неподготовленного человека (так, вместо "KW" - "KEYWORDS", "OS" - "ORGANISM" и т.д.).

  2. В RefSeq более полно даны комментарии к публикациям, посвященным данному белку, а также доступнее написано о конкретных характеристиках молекулы. В частности, даны предположения о том, какая часть белка является функциональной.

  3. В обеих базах можно обнаружить последовательность белка в Fasta-формате:

    >tr|A0A0U3QKR4|A0A0U3QKR4_9MICC Alpha-L-fucosidase 
    MSTAPATQVAIPHAPWFTEDRLGMFVHWGLYSLAARHEWVMYRENMDAAEYSKYFEHFDP
    DLYDPSEWAAAAKNAGMKYVVLTTKHHDGFALWDSAFTDYKATNTPCGQDLLTPYVAALR
    EAGLKVGFYHSVIDWHHPDFTIDGNHAARNNPDWEEVNKTRDGARYREYLHGQVRELLTN
    YGQIDYLFFDFSYPDEATANPDGEPKFRGKGAEDWGSVALMEMIRELQPGIIVNDRLNVP
    GDFVTPEQYQPAGAMISGDKEVPWEACQTLNGSWGYDRDNLDYKSPEQLIHMLIDGVSKG
    GNLLLNVGPTGRGEIDPRARESLAGMGEWMRLHSRSIYGAGAAGMAAPQDARYTLRGNRL
    YLHLFAWPFQFVHLPGLAGKVRYAQLLNDASEIPFLVLDPGQAAGHMTPAGQAPGTLTLK
    LPVQRPRVAVPVIELFLHTESDLS
    

  4. В обеих базах можно ознакомиться с систематикой данного организма. В базе RefSeq допустимо сразу же перейти к изучению особенностей данного штамма бактерии, а также прочитать аннотацию к секвенированному геному данного организма.

  5. Однако большим упущением базы RefSeq, на мой взгляд, является то, что здесь не приведены идентификаторы на то большое количество других баз данных, информацию о которых можно получить в Uniprot. Этим данным в описании белковой молекулы посвящен довольно большой раздел, что является удобным для исследователя, которому может понадобиться информация из различных источников, а здесь она собрана вместе.

Вполне возможно, что некоторые различия обусловлены тем, что в базе Uniprot последнее обновление, проведенное относительно данного белка, было осуществлено 16 марта 2016 года, тогда как в базе RefSeq - 4 января 2016 года.

Источники:

[1] Ссылка на сайт Uniprot.