Emboss и протеомы

В данном практическом задании мы учимся работать c пакетом Emboss. С помощью этой программы легко получать и фильтровать информацию об интересующих нас организмах, взятую из различных баз данных.

Частоты остатков в протеоме

Информация о протеомах бактерий Escherichia coli (штамм K12) и Leuconostoc mesenteroides subsp. mesenteroides ATCC 8293 была взята из базы данных UniProt. C команды grep -c ">"легко посчитать число последовательностей (белков) в протеоме бактерии. Для посчета частоты встречаемости аминокислот использовалась команда wordcount с опцией -wordsize 1( подсчёт уникальных слов длины 1). Для составления итоговой таблицы был написан скрипт на Python. Для запуска программа запрашивает 2 аргумента командной строки (команда запуска: python3.6 table.py esch_aa.txt leum_aa.txt). Перечисленные файлы хранятся в директории ar-nikolya/term2/block2/pr7. В результате программа выводит на консоль суммарное число аминокислот обоих организмов, а также создаёт текстовый файл с готовой html-таблицей (файл result.txt).

Идентификатор протеома: UP000000625

Число последовательностей: 4352

Общее число аминокислот: 1353357

Идентификатор протеома: UP000000362

Число последовательностей: 2002

Общее число аминокислот: 606353

Таблица 1.Сравнение процентов остатков в протеомах бактерий Escherichia coli (штамм K12) и Leuconostoc mesenteroides subsp. mesenteroides ATCC 8293
Аминокислотный остаток Встречаемость в протеоме Escherichia coli(%) Встречаемость в протеоме Leuconostoc mesenteroides (%) Разность (%)
L 10.68 9.59 1.09
A 9.51 7.94 1.57
I 6.01 7.64 -1.63
V 7.07 7.18 -0.11
G 7.37 6.56 0.81
S 5.8 6.42 -0.62
K 4.41 6.36 -1.95
T 5.39 6.3 -0.91
D 5.15 5.78 -0.63
E 5.76 5.61 0.15
N 3.94 5.28 -1.34
F 3.89 4.46 -0.57
Q 4.44 4.4 0.04
R 5.52 3.78 1.74
Y 2.84 3.45 -0.61
P 4.43 3.35 1.08
M 2.83 2.6 0.23
H 2.27 2.02 0.25
W 1.53 1.06 0.47
C 1.16 0.22 0.94

Нетрудно заметить, что самые часто встречаемые аминокислотные остатки Escherichia coli - лейцин (L), аланин (A) и глицин (G), тогда как у Leuconostoc mesenteroides subsp. mesenteroides чаще встречаются лейцин (L), аланин (A) и изолейцин (I). Самые редкие аминокислоты в протеоме совпадают - это гистидин(H), триптофан (W) и цистеин (С). Примечательна довольна большая разность встречаемости ряда аминокислот в бактериях. Самая большая разность в пользу Escherichia coli наблюдается у остатка аргинина (R) - 1.74%, в пользу Leuconostoc mesenteroides subsp. mesenteroides - 1.95% - у остатка лизина (K).