Протеомы в Uniprot

Вернуться на страницу семестра

Работа с протеомами в Uniprot

В данной работе сравниваются протеомы Escherichia coli (штамма K12) [1] и Caulobacter crescentus (штамм NA1000 / CB15N) [2]. Также подробнее о Caulobacter crescentus вы можете узнать из моей предыдущей работы.


Немного определений: Протеом — совокупность белков организма, производимых клеткой, тканью или организмом в определённый период времени. Или, более строго, это совокупность экспрессированных белков в данном типе клеток или в организме, в данный период времени при данных условиях. Протеом часто бывает больше, чем геном. Это связано с альтернативным сплайсингом, а также с посттрансляционной модификацией белков, например, их гликозилированием и фосфорилированием. В то время как геном определяется последовательностью нуклеотидов, протеом не сводится к сумме последовательностей аминокислот. Протеом включает в себя также пространственные структуры всех содержащихся в нём белков и функционального взаимодействия между ними [3].

Таблица 1. Идентификаторы и общие сведения

ПараметрCaulobacter crescentus (NA1000)Escherichia coli (K12)
Идентификатор организма56505083333
Идентификатор протеомаUP000001364UP000000625
Число последовательностей 38594306
Число остатков12136721356195
Данные таблицы получены с помощью сайта Uniprot [1], [2].

Таблица 2. Частоты остатков в протеомах

ОстатокCaulobacter crescentus, %Escherichia coli, %Разница, %
A13,879,514,35
L10,0310,670,64
G8,867,371,48
V7,577,070,50
R7,135,511,62
D5,785,150,63
P5,474,431,04
E5,425,760,34
T5,295,400,10
S5,115,800,70
I4,426,011,59
F3,583,890,31
K3,564,410,84
Q3,164,441,28
N2,403,951,55
M2,292,820,53
Y2,142,850,70
H1,752,270,51
W1,431,530,10
C0,741,160,42
Данные таблицы получены с помощью Excel.
Красным в таблице отмечены разности, в которых преобладает Caulobacter crescentus. Сразу замечу, что в E. coli встретилось 3 селеноцистеина (U), но в таблице эта нестандартная аминокислота не приведена.
Отмечу, что 3 самые встречаемые аминокислоты у бактерий одинаковые - аланин, лейцин, глицин. 3 самые редкие аминокислоты также совпадают - гистидин, триптофан, цистеин. Из таблицы видно, что в большинстве случаев процент какой-либо аминокислоты больше у E. coli, при этом разница в соотношении очень мала - меньше 1,5%. Только в исключительном случае разница довольно велика - 4,35% преобладание аланина у Caulobacter. В пользу E. coli самая большая разница - 1,59% изолейцина. Минимальная разница в содержаниях триптофана и треонина - 0,1%. Можно сделать вывод, что встречаемость аминокислот у этих бактерий очень близка, но в некоторых случаях довольно сильно отличается (аланин).

Cправка о разнице между программами wordcount и compseq

Команда compseq выдаёт куда более полную информацию о встречаемости данного "слова", то есть команда может быть очень полезна, когда нужно быстро понять особенности процентного распределения по "словам". Однако в команде wordcount есть большое преимущество - она выдаёт "слово" и число его встречаемости в порядке убывания встречаемости слов, в то время как compseq выдаёт все возможные последовательности, даже с нулевой встречаемостью, но слова располагаются по алфавиту.
Как ни странно, но в моём случае мне было удобнее пользоваться wordcount, потому что в задании требовалось расположить аминокислотные остатки в порядке убывания встречаемости, а тк я работала на неполной версии Excel, где множество функций, в том числе сортировка, отключены, то это стало решающим фактором. Тем не менее, очень удобно свериться в правильности расчётов с помощью команды compseq, которая к тому же подсчитывает общее число слов (в моём случае аминокислот).
Также мне бы хотелось отметить, что функция compseq очень полезна для случайных наблюдений. Например, я решила попробовать проверить встречаемость слов из 3 букв (3 аминокислоты подряд) в протеоме E. coli. Когда я дошла до буквы U по алфавиту, то, конечно же, почти везде в колонке увидела нули, что не удивительно, ведь селеноцистеина всего 3 на весь протеом. Но куда удивительнее было то, что напротив последовательности UHG стояло 3, то есть все селеноцистеины были именно в этой последовательности. Я нашла их в протеоме и увидела очень похожие участки с одинаковыми аминокислотами:

ARSLGMLAVDNQARVUHGPTVASLAPTFGRGAMTNHWVDIKNANVVMVMGGNAAEAHPVG SRALGMLAVDNQARVUHGPTVASLAPTFGRGAMTNHWVDIKNANLVVVMGGNAAEAHPVG RAVIGTNNVDCCARVUHGPSVAGLHQSVGNGAMSNAINEIDNTDLVFVFGYNPADS





© Миронова Екатерина 2017 год