Знакомство с сервисом Uniprot и Pefseq protein.
Изначально мне был дан ДНК-связывающий белок
бактерии Deinococcus radiodurans штамм R1 с RefSeq ID = NP_295013.1 и
PDB ID = 4Q47. Я произвел запросы по всем имеющимся у меня данным, но
ни один запрос не нашел совпадений. Поэтому я выбрал одну из шести
имеющихся в базе данных последовательностей ДНК-связывающих белков моей
бактерии и в дальнейшем буду опиcывать именно ее. Данные о белке
представлены в таблице 1.
Ссылка на запись
Uniprot в текстовом формате.
Таблица 1. Общая информация о белке |
Uniprot ID | RECDL_DEIRA |
Uniprot AC | Q9RT63 |
Refseq ID | NP_295625.1; NC_001263.1;
WP_010888537.1; NC_001263.1. |
PDB ID | 3E1S; 3GP8; 3GPL. |
Длина, AA | 715 |
Молекулярная масса, Da | 76431 |
Рекомендованное название | ATP-dependent RecD-like DNA helicase |
Дата создания записи | 11 Ноября 2015 |
Последняя дата изменения | 01 Мая 2000 |
Локус | DR_1902 |
Кластеры ссылок UniProt состоят из трех баз данных
(UniRef100, UniRef90 и UniRef50). UniRef100 содержит полностью
идентичные последовательности из любых организмов. UniRef90 и UniRef50
состоят из последовательностей с идентичностью не менее 90% и 50%
,соответственно, с самой длинной последовательностью из них. С помощью
этих баз данных можно быстро и надежно находить родственные белки. (Из
материалов
Википедии)
В таблице 2 можно найти количество белков в
каждом кластере. Кластер Uniref100 состоит из 1 последовательности,
непосредственно, нашей. Uniref90 из 2, кроме нашей он содержит белок
организма, одного с нашим организмом рода. Uniref50 содержит уже 27
последовательностей, но все они принадлежат к организмам нашего рода.
Причем в двух последних кластерах наш белок не является самым большим,
то есть "начальной" последовательностью (англ. "seed").
Таблица 2. Информация о Uniref-кластерах |
ID кластера | Количество белков | Количество родов |
UniRef100_Q9RT63 | 1 | 1 |
UniRef90_Q9RT63 | 2 | 1 |
UniRef50_Q9RT63 | 27 | 1 |
Таблица 3 содержит сводку по результатам поиска,
моменты, заслуживающие внимания, будут приведены ниже таблицы.
Таблица 3. Результаты сеансов поиска в UniProt. |
Текст запроса | Найдено всего | Из них в Reviewed |
name:"atp dependent" name:"recd like" name:dna
name:helicase | 3253 | 2 |
name:"atp dependent" name:"recd like" name:dna
name:helicase taxonomy:deinococcaceae | 14 | 1 |
name:"atp dependent" name:"recd like" name:dna
name:helicase taxonomy:"deinococcus thermus" | 14 | 1 |
name:pepsin | 265 | 29 |
name:pepsin taxonomy:viridiplantae | 26 | 0 |
name:pepsin taxonomy:metazoa | 150 | 29 |
name:trypsin | 11134 | 301 |
name:"trypsin inhibitor" | 2660 | 191 |
Поиск по (name:"atp dependent" name:"recd like"
name:dna name:helicase taxonomy:deinococcaceae) только из одного рода
Deinococcus (из 2 родов в семействе), полностью аналогичные результаты были
получены при поиске (name:"atp dependent" name:"recd like" name:dna
name:helicase taxonomy:"deinococcus thermus").
Я произвел три поиска с пепсином. Первое - без
ограничений по таксонам показало, что пепсин последовательностей по
пепсину в базе немного. Второе - среди животных выявило, что большая
часть всех пепсинов относится к животным, в том числе все, имеющие
статут Reviewed. Последний - среди зеленых растений дал мало
результатов, многие из которых были лишь пепсиноподобными (pepsin-type)
последовательностями. Результат не удивителен, ведь пепсин - фермент,
вырабатываемый клетками желудка и предназначенный для расщепления
белков до пептидов, такая задача не стоит перед большинством зеленых
растений (кроме хищных, однако пепсин был найден у кукурузы).
Действительно, по запросу трипсин Uniprot находит
ингибиторы трипсина тоже. Это неудивительно, учитывая механизм поиска.
Оказывается, ингибиторы трипсина составляют четверть от всех
"трипсинов" и две трети от Reviewed-записей, что свидетельствует об
активном их изучении.