UniProt

Знакомство с банком UniProt.

Цель данного практикума: получение навыков работы с банком UniProt (таких как извлечение необходимых данных). В качестве отчёта: предоставление данных о Бета субъединице ацетофенон карбоксилазы из генома бактерии Aromatoleum aromaticum EbN1.

Поиск белка в банке UniProt.

С помощью базы UniProt были получены основные данные о белке. Результаты приведены в таблице 1.

Таблица 1. Основная информация о белке APCB_AROAE из UniProt.
UniProt ID UniProt AC RefSeq ID PDB ID Длина белка (а.о.) Молекулярная масса (Да) Рекомендуемое название
APCB_AROAE Q5P5G3 WP_011237169.1 5L9W 129 14993 Acetophenone carboxylase beta subunit

В UniProt представлена основная информация о белке, включая имя организма, которому принадлежит данный белок, функции, данные о взаимодействиях, структуру с PDB апплетом, последовательность и т.д.

Поиск белка APCB_AROAE в UniRef

С помощью базы UniProt были найдены кластеры белка UniRef50, UniRef90 и UniRef100.

Таблица 2. Кластеры UniRef, содержащие белок APCB_AROAE.
Раздел UniRef ID кластера Название кластера Размер кластера
UniRef100 UniRef100_Q5P5G3 Acetophenone carboxylase beta subunit (100%) 1
UniRef90 UniRef90_Q5P5G3 Acetophenone carboxylase beta subunit (90%) 1
UniRef50 UniRef50_Q5P5G3 Acetophenone carboxylase beta subunit (50%) 6

UniRef 100 объединяет идентичные последовательности и субфрагменты с 11 или более остатками из любого организма в одну запись UniRef.
UniRef 90 создается путем кластеризации последовательностей UniRef100 таким образом, что каждый кластер состоит из последовательностей, которые имеют по меньшей мере 90% идентичности последовательностей и 80% перекрываются с самой длинной последовательностью (например, начальная последовательность).
UniRef50 создается путем кластеризации начальных последовательностей UniRef90, которые имеют по меньшей мере 50% идентичности и 80% перекрываются с самой длинной последовательностью в кластере.

Сеансы поиска в UniProt

Для знакомства с возможностями поиска в UniProt был проведён ряд запросов.

Поиск по рекомендованному названию белка.

Текст запроса: «‎name:"acetophenone carboxylase beta subunit"»‎
Количество находок в Swiss-Prot: 1
Общее количество находок: 9

Поиск по тому же названию среди белков своего организма

Текст запроса: «‎name:"acetophenone carboxylase beta subunit" organism:"aromatoleum aromaticum"»‎
Количество находок в Swiss-Prot: 1
Общее количество находок: 1

Поиск по тому же названию среди белков из организмов того же семейства

Текст запроса: «‎name:"acetophenone carboxylase beta subunit" taxonomy:rhodocyclaceae»‎
Количество находок в Swiss-Prot: 1
Общее количество находок: 1

Поиск по тому же названию среди белков из организмов того же отдела

Текст запроса: «‎name:"acetophenone carboxylase beta subunit" taxonomy:proteobacteria»‎
Количество находок в Swiss-Prot: 1
Общее количество находок: 3

Поиск альбуминов

Поиск альбуминов без ограничения на организмы

Текст запроса: «‎name:albumin»‎
Количество находок в Swiss-Prot: 77
Общее количество находок: 1043

Поиск альбуминов у грибов

Текст запроса: «‎name:albumin taxonomy:fungi»‎
Количество находок в Swiss-Prot: 0
Общее количество находок: 2

Поиск альбуминов у позвоночных животных

Текст запроса: «‎name:albumin taxonomy:vertebrata»‎
Количество находок в Swiss-Prot: 43
Общее количество находок: 440

Поиск трипсинов

Поиск по слову "трипсин"

Текст запроса: «‎name:trypsin»‎
Количество находок в Swiss-Prot: 312
Общее количество находок: 23018

Поиск трипсинов, исключая их ингибиторы

Текст запроса: «‎name:trypsin NOT inhibitor»‎
Количество находок в Swiss-Prot: 95
Общее количество находок: 18204

Поиск различий в записях UniProt и RefSeq Protein

Были найдены записи о Бета субъединице ацетофенон карбоксилазы в UniProt и RefSeq Protein, а также проведено их сравнение с целью выявления схожести и отличий.

В UniProt последовательность белка записана с отступом через каждые 10 символов, переносом строки через каждые 50 и нумерацией каждой 10й аминокислоты.
В RefSeq последовательность белка записана с отступом через каждые 10 символов, переносом строки через каждые 60 и нумерацией каждой (60n+1)ой (где n=0,1,2...) аминоксилоты.

История изменений записи UniProt.

Для выявления измений с течением времени была просмотрена история записей белка.

Ключевые моменты:.
- 4 января 2005 года была создана запись в TrEMBL и присвоено имя Q5P5G3.
- 1 февраля 2005 г. имя было изменено на Q5P5G3_AZOSE.
- 11 января 2011 г. имя было изменено на Q5P5G3_AROAE.
- 5 сентября 2012 г. запись была добавлена в Swiss-Prot, а имя изменено на APCB_AROAE.
Всего измененй в записи было 67.