Практикум 7

Белок AAD07261.1 - триозофосфатизомераза (ТФИ). Организм - Helicobacter pylori ATCC 700392/26695. Этот фермент играет важную роль в процессе гликолиза, катализируя взаимные превращения дигидроксиацетона и глицеральдегид-3-фосфата.[1](5.03.4.1) Белок имеет 3D-структуру в базе PDF (2JGQ). Входит в кластеры UniRef:

UniRef100_P56076 - входят еще 2 записи из UniProtKB и 1 из UniParc

UniRef90_P56076 - входят еще 1315 записей

UniRef50_P56076 - входят еще 1419 записей

Helicobacter pylori - спиралевидная бактерия, поражающая ткани желудка и кишечника. Обитание в среде желудочного тракта удобно с той точки зрения, что суровость условий уменьшает число возможных конкурентов за ресурсы, но требует высокой приспособленности. Среди прочего H. pylori вырабатывает высокое количество уреазы (10-15% от общего кол-ва белков), которая катализирует реакции гидролиза мочевины до аммиака и углекислого газа, понижая кислотность вокруг; обладает повышенной подвижностью за счет длинных жгутиков и прикрепляется с помощью адгезинов к слизистой.[2](4.23.1.2)

В истории версий при довольно поверхностном анализе ничего интересного не нашлось. В основном, это все различные космоетические детали: как именно в файле записаны данные (вплоть до разного числа черточек в разграничивающих линиях). Из файла также можно узнать, что фермент обладает константой Миахаэлиса 3,6 мкМ, что говорит о хорошем сродстве с субстратом.

Протеом

Мой протеом - UP000000429; 1554 белка. CPD - Standard, BUSCO хороший, только 0,5% суммарно не входят в Single, в Swiss-Prot 612 белков

Вид Helicobacter pylori ранее принадлежал к роду Campylobacter, на что указывает даже уточнение в названии организма на странице протеома. Интересно было бы сравнить протеомы представителей данных родов, чтобы определить, насколько, действительно, они отличаются. Выбрал я следующий протеом:

UP000000799, 1623 белка - Campylobacter jejuni subsp. jejuni serotype O:2 (strain ATCC 700819 / NCTC 11168). Является патогенной в том числе и для человека, но принадлежит к дургому роду. Описание у них, в целом, похожее: грамм-отрицательные, спиралевидные, микроаэрофильные. CPD - close to standard(low value), BUSCO полностью Single, в SwissProt 472 белка

Самым изученным является исходный протеом, что, в целом, и не кажется мне удивительным, поскольку H. pylori очень известный патоген человека. Изученность C. jejuni subsp. jejuni serotype O:2 (strain ATCC 700819 / NCTC 11168) поменьше. Меня смущает, конечно, количество аннотированных записей в Swiss-Prot у этих видов, но по другим показателям все довольно хорошо.

Для анализа протеомов я решил воспользоваться bash, потому что, в целом, я представлял себе, как это можно сделать на питоне, а с помощью bash - не очень. Я анализировал число строк, которые получаются в результате поиска по файлу с zgrep. В случае трансмембранных белков я опирался на описание белков в KW (что, полагаю, может быть неточно, потому что не у всех белков может быть описание в KW), а в случае ферментов - через DE, в котором я искал наличие сочетания EC=, что указывало бы на код фермента. Сразу предположу, что анализ можно было бы сделать более точным, если разбить протеом на отдельные белки по, например, //, а потом проверять в отдельных кусочках наличие TRANSMEM, ACT_SITE и т.д.

Скрипт лежит в ~/term2/pr8/trans.sh

Тип белков H. pylori C. jejuni subsp. jejuni serotype O:2
Трансмембранные 34,4241,58
Ферменты 30,88 36,78
Белки, регулирующие вирулентность 1,200,3

Итак, в контрольном протеоме меньше доли и трансмембранных белков, и ферментов. У H. pylori еще выше доля белков, регулирующих вирулентность, что может говорить о большей пагубности со стороны этой бактерии по сравнению с другой.

В качестве дополнительного критерия сравнения (п. 3) я решил воспользоваться предложенной идеей сравнения частот ключевых слов. Для этого я написал скрипт, который лежит в ~/term2/pr8 (там же пока лежат файлы протеомов). Под словом я понимал не отдельное слово, аименно ключевое слово, которое отграничено от других ;. То есть "Reference proteome" - одно слово. В результате имеем следующие топ-5 слов в KW:

Место H. pylori C. jejuni subsp. jejuni serotype O:2
1 Reference proteome {ECO:0000313|Proteomes:UP000000429} - 4050Reference proteome {ECO:0000313|Proteomes:UP000000799} - 4229
2 Transmembrane helix {ECO:0000256|SAM:Phobius} - 957 Transmembrane helix {ECO:0000256|SAM:Phobius} - 1081
3 Reference proteome - 912Transmembrane helix {ECO:0000256|ARBA:ARBA00022989, - 931*
4 Signal {ECO:0000256|SAM:SignalP} - 496Reference proteome - 730
5 Transmembrane helix {ECO:0000256|ARBA:ARBA00022989, - 476* Signal {ECO:0000256|SAM:SignalP} - 546
* - это недочет моего скрипта. К сожалению, в некоторых ситуациях слово разбивалось на две строки (например, тут после запятой следовал еще текст, который скриптом был воспринят как отдельное слово, но это не единственный пример). Недочет вижу, но поправлять сейчас не буду, поскольку хочу представить работу уже хоть в каком-то виде... Еще одна ошибка, довольно значимая, заключается в изначальном сборе всех слов в один файл. Дело в том, что при поочередном копировании колонок некоторые несколько раз собирались. Например, есть строка "Reference proteome". И она засчитывается в каждую колонку почему-то, а не только в первую

Источники информации

1. Essentials of Medical Biochemistry (Second Edition), 2015, p.165-185 - N.V.Bhagavan, Chung-Eun Ha

2. Comprehensive Glycoscience, v.4, 2007, p.439-451 - M.Kobayashi, M.Fukuda, J.Nakayama