Протеомы в Uniprot

Работа с протеомами в Uniprot

В данной работе сравниваются протеомы Escherichia coli (штамма K12) [1] и Caulobacter crescentus (штамм NA1000 / CB15N) [2]. Также подробнее о Caulobacter crescentus вы можете узнать из моей предыдущей работы.

Немного определений: Протеом — совокупность белков организма, производимых клеткой, тканью или организмом в определённый период времени. Или, более строго, это совокупность экспрессированных белков в данном типе клеток или в организме, в данный период времени при данных условиях. Протеом часто бывает больше, чем геном. Это связано с альтернативным сплайсингом, а также с посттрансляционной модификацией белков, например, их гликозилированием и фосфорилированием. В то время как геном определяется последовательностью нуклеотидов, протеом не сводится к сумме последовательностей аминокислот. Протеом включает в себя также пространственные структуры всех содержащихся в нём белков и функционального взаимодействия между ними [3].

Таблица 1. Идентификаторы и общие сведения

Параметр	Caulobacter crescentus (NA1000)	Escherichia coli (K12)
Идентификатор организма	565050	83333
Идентификатор протеома	UP000001364	UP000000625
Число последовательностей	3859	4306
Число остатков	1213672	1356195

Данные таблицы получены с помощью сайта Uniprot [1], [2].

Таблица 2. Частоты остатков в протеомах

Остаток	Caulobacter crescentus, %	Escherichia coli, %	Разница, %
A	13,87	9,51	4,35
L	10,03	10,67	0,64
G	8,86	7,37	1,48
V	7,57	7,07	0,50
R	7,13	5,51	1,62
D	5,78	5,15	0,63
P	5,47	4,43	1,04
E	5,42	5,76	0,34
T	5,29	5,40	0,10
S	5,11	5,80	0,70
I	4,42	6,01	1,59
F	3,58	3,89	0,31
K	3,56	4,41	0,84
Q	3,16	4,44	1,28
N	2,40	3,95	1,55
M	2,29	2,82	0,53
Y	2,14	2,85	0,70
H	1,75	2,27	0,51
W	1,43	1,53	0,10
C	0,74	1,16	0,42

Данные таблицы получены с помощью Excel.
Красным в таблице отмечены разности, в которых преобладает Caulobacter crescentus. Сразу замечу, что в E. coli встретилось 3 селеноцистеина (U), но в таблице эта нестандартная аминокислота не приведена.
Отмечу, что 3 самые встречаемые аминокислоты у бактерий одинаковые - аланин, лейцин, глицин. 3 самые редкие аминокислоты также совпадают - гистидин, триптофан, цистеин. Из таблицы видно, что в большинстве случаев процент какой-либо аминокислоты больше у E. coli, при этом разница в соотношении очень мала - меньше 1,5%. Только в исключительном случае разница довольно велика - 4,35% преобладание аланина у Caulobacter. В пользу E. coli самая большая разница - 1,59% изолейцина. Минимальная разница в содержаниях триптофана и треонина - 0,1%. Можно сделать вывод, что встречаемость аминокислот у этих бактерий очень близка, но в некоторых случаях довольно сильно отличается (аланин).

Cправка о разнице между программами wordcount и compseq

Команда compseq выдаёт куда более полную информацию о встречаемости данного "слова", то есть команда может быть очень полезна, когда нужно быстро понять особенности процентного распределения по "словам". Однако в команде wordcount есть большое преимущество - она выдаёт "слово" и число его встречаемости в порядке убывания встречаемости слов, в то время как compseq выдаёт все возможные последовательности, даже с нулевой встречаемостью, но слова располагаются по алфавиту.
Как ни странно, но в моём случае мне было удобнее пользоваться wordcount, потому что в задании требовалось расположить аминокислотные остатки в порядке убывания встречаемости, а тк я работала на неполной версии Excel, где множество функций, в том числе сортировка, отключены, то это стало решающим фактором. Тем не менее, очень удобно свериться в правильности расчётов с помощью команды compseq, которая к тому же подсчитывает общее число слов (в моём случае аминокислот).
Также мне бы хотелось отметить, что функция compseq очень полезна для случайных наблюдений. Например, я решила попробовать проверить встречаемость слов из 3 букв (3 аминокислоты подряд) в протеоме E. coli. Когда я дошла до буквы U по алфавиту, то, конечно же, почти везде в колонке увидела нули, что не удивительно, ведь селеноцистеина всего 3 на весь протеом. Но куда удивительнее было то, что напротив последовательности UHG стояло 3, то есть все селеноцистеины были именно в этой последовательности. Я нашла их в протеоме и увидела очень похожие участки с одинаковыми аминокислотами:

ARSLGMLAVDNQARVUHGPTVASLAPTFGRGAMTNHWVDIKNANVVMVMGGNAAEAHPVG SRALGMLAVDNQARVUHGPTVASLAPTFGRGAMTNHWVDIKNANLVVVMGGNAAEAHPVG RAVIGTNNVDCCARVUHGPSVAGLHQSVGNGAMSNAINEIDNTDLVFVFGYNPADS

Источники
[1] Proteomes - Escherichia coli (strain K12) 
[2] Proteomes - Caulobacter crescentus (strain NA1000 / CB15N) 
[3] Протеом, Wikipedia