На данной странице вы можете ознакомиться с моими результатами работы с базой данных Uniprot. В Таблице 1 представлена информация, найденная на сайте Uniprot; информация об этом белке была найдена с помощью идентификатора CDS: ALV47246.1, и использования сервиса "Retrieve/ID mapping" на сайте Uniprot. Пройдя по ссылке, вы сами сможете узнать больше о структуре, строении данного белка, а также о публикациях, посвященных ему.
Таблица 1. Информация, полученная с сайта Uniprot. | |
Uniprot ID | A0A0U3QKR4_9MICC |
Uniprot AC | A0A0U3QKR4 |
Refseq ID | WP_044575648.1 |
PDB ID | - |
Length of protein | 444 AA |
Molecular weight | 49716 |
SubName (Full) | Alpha-L-fucosidase {ECO:0000313|EMBL:ALV47246.1} |
Согласно данным, полученным с сайта Uniprot, исследованный белок носит название α-L-фукозидаза (Alpha-L-fucosidase). Он характерен для организма Arthrobacter sp. A3 из рода Arthrobacter, штамм A3. Этот белок является предсказанным и не аннотированным, поэтому информации о нём почти нет, а та, какая имеется не была подстверждена (в поле PE стоит цифра 4). Впервые белок был занесён в базы данных EMBL/GenBank/DDBJ в декабре 2015 года, а в UniProtKB/TrEMBL информация о его последовательности появилась 16 марта 2016 года. Рекомендованного названия для него нет, поэтому в Таблице 1 я указала SubName, также нет информации и о PDB ID, поэтому в этой графе в таблице прочерк. Как написано в базе Uniprot, данный белок синтезируется с использованием информации, записанной на геномной ДНК, и его длина составляет 444 аминокислотных остатка [1].
Ниже представлена информация о справочных кластерах Uniprot (UniRef) при 100%, 90% и 50% идентичности последовательностей:
UniRef50 составляется путем группировки последовательностей, идентичных последовательностям кластера UniRef90, которые имеют, по меньшей мере, 50%-ное сходство последовательностей и на 80% перекрываются с самой длинной последовательностью в кластере. ID кластера - UniRef50_J7LZN, имя кластера - Plasma alpha-L-fucosidase Fuca. В него включены 246 последовательностей, длина которых варьирует от 401 до 476 аминокислотных остатков. Данные белки встречаются у разных видов бактерий, совсем необязательно родственных Arthrobacter sp. A3.
Uniref90 составляется из последовательностей, идентичных последовательностям кластера Uniref100 и имеющих с ними не менее 90% сходства в общем, а в частности, не менее, чем на 80% перекрываются с самой длинной из них. ID кластера - UniRef90_A0A0U3QKR4, имя кластера - Alpha-L-fucosidase. В него входит 2 последовательности, причем одна из них - ранее изученная последовательность, данные о которой представлены в таблице, а вторая была исключена из базы данных UniProtKB, однако информацию о ней всё ещё можно получить из других баз данных.
Uniref100 объединяет идентичные последовательности или суб-фрагменты из любого организма с 11 или более остатками, которые являются последовательностями. ID кластера - UniRef100_A0A0U3QKR4, имя кластера - Alpha-L-fucosidase. Кластер состоит из одной последовательности, которая ранее была мной изучена.
В базе данных Uniprot есть возможность изучить историю изменений записей. Так, мною была изучена история изменения записей об Alpha-L-fucosidase. В настоящий момент доступна для пользователей пятая версия записи. Относително первой произошли серьёзные изменения такие, как: добавились новые идентификаторы штамма, ссылки на последовательности белка и нуклеотидные последовательности, записанные в других базах данных, а также идентификатор, с помощью которого можно изучить полный протеом данного штамма. В первой версии широкая аудитория была ограничена лишь небольшим количсетвом источников и ссылок на другие базы данных в поле DR, и по мере разработки новых версий появлялось всё большее их количество. Причем самые большие изменения произошли при переходе от первой ко второй версии (добавилось наибольшее число ссылок). При переходе к третьей версии добавилось поле с ключевыми словами (KW), которое в дальнейшем только пополнялось данными. На основании всего вышесказанного можно заключить, что с течением времени количество информации только увеличивается, а объём данных в базах растёт.
Поиск: name:"alpha l fucosidase" (Использовано SubName) Результаты: найдено 5953 белков, из них 18 из раздела Reviewed. Длина варьирует от 15 до 2533 аминокислотных остатков. Причем такое название встречается у 5 последовательностей, изученных у Homo sapiens.
Поиск: name:"alpha l fucosidase" organism:"arthrobacter sp a3" Результаты: найдено 2 белка, из них 0 из раздела Reviewed. Длиной 444 и 454 аминокислотных остатка. Первый - ранее изученный, а второй - также предсказанный сходный белок.
Поиск: name:"alpha l fucosidase" taxonomy:"Micrococcaceae [1268]" Результаты: найдено 39 белков, из них 0 из раздела Reviewed. Длина варьирует от 63 до 781 аминокислотного остатка.
Поиск: name:"alpha l fucosidase" taxonomy:"Actinobacteria [201174]" Результаты: найдено 910 белков, из них 0 из раздела Reviewed. Длина варьирует от 26 до 1959 аминокислотных остатков.
По результатам серии поисковых запросов можно заключить, что данный белок был плохо изучен и в подавляющем большинстве встречается у различных организмов, в том числе, примерно 15,3% от общего числа изученных последовательностей приходится на отдел Actinobacteria.
Поиск по названию "гистон":
Поиск: name:histone Результаты: найдено 99472 белков, из них 2064 из раздела Reviewed. Самый популярный организм для исследования - Homo sapiens (635).
Поиск: name:histone taxonomy:"Fungi [4751]" Результаты: найдено 18374 белков, из них 503 из раздела Reviewed. Самый популярный организм для исследования - Saccharomyces cerevisiae (58).
Поиск: name:histone taxonomy:"Arthropoda [6656]" Результаты: найдено 24394 белков, из них 138 из раздела Reviewed. Самый популярный организм для исследования - Drosophila melanogaster (144).
Поиск по названию "трипсин":
Поиск: name:trypsin Результаты: найдено 13241 белков, из них 310 из раздела Reviewed. Самый популярный организма для исследования - Homo sapiens (65).
Поиск: name:trypsin name:inhibitor Результаты: найдено 2962 белков, из них 209 из раздела Reviewed.
Результат данного поиска свидетельствует о том, что около 22,4% от общего числа изученных белков приходится на ингибиторы трипсина, которые при первом поисковом запросе были включены в результат. Данные о рецензировании свидетельствуют о высоком интересе исследователей ингибиторами трипсина.
По этой ссылке вы можете озаномиться с описанием α-L-фукозидазы в базе данных RefSeq Protein. Сопоставляя данные из различных источников, можно увидеть, что:
В отличие от Uniprot в RefSeq столбцы, которые поясняют информацию, приведённую в строках, являются не сокращениями, а полноценными словами, что облегчает восприятие информации для непосвященного и неподготовленного человека (так, вместо "KW" - "KEYWORDS", "OS" - "ORGANISM" и т.д.).
В RefSeq более полно даны комментарии к публикациям, посвященным данному белку, а также доступнее написано о конкретных характеристиках молекулы. В частности, даны предположения о том, какая часть белка является функциональной.
В обеих базах можно обнаружить последовательность белка в Fasta-формате:
>tr|A0A0U3QKR4|A0A0U3QKR4_9MICC Alpha-L-fucosidase MSTAPATQVAIPHAPWFTEDRLGMFVHWGLYSLAARHEWVMYRENMDAAEYSKYFEHFDP DLYDPSEWAAAAKNAGMKYVVLTTKHHDGFALWDSAFTDYKATNTPCGQDLLTPYVAALR EAGLKVGFYHSVIDWHHPDFTIDGNHAARNNPDWEEVNKTRDGARYREYLHGQVRELLTN YGQIDYLFFDFSYPDEATANPDGEPKFRGKGAEDWGSVALMEMIRELQPGIIVNDRLNVP GDFVTPEQYQPAGAMISGDKEVPWEACQTLNGSWGYDRDNLDYKSPEQLIHMLIDGVSKG GNLLLNVGPTGRGEIDPRARESLAGMGEWMRLHSRSIYGAGAAGMAAPQDARYTLRGNRL YLHLFAWPFQFVHLPGLAGKVRYAQLLNDASEIPFLVLDPGQAAGHMTPAGQAPGTLTLK LPVQRPRVAVPVIELFLHTESDLS |
В обеих базах можно ознакомиться с систематикой данного организма. В базе RefSeq допустимо сразу же перейти к изучению особенностей данного штамма бактерии, а также прочитать аннотацию к секвенированному геному данного организма.
Однако большим упущением базы RefSeq, на мой взгляд, является то, что здесь не приведены идентификаторы на то большое количество других баз данных, информацию о которых можно получить в Uniprot. Этим данным в описании белковой молекулы посвящен довольно большой раздел, что является удобным для исследователя, которому может понадобиться информация из различных источников, а здесь она собрана вместе.
Вполне возможно, что некоторые различия обусловлены тем, что в базе Uniprot последнее обновление, проведенное относительно данного белка, было осуществлено 16 марта 2016 года, тогда как в базе RefSeq - 4 января 2016 года.
[1] Ссылка на сайт Uniprot. |