В данном практическом задании мы учимся работать c пакетом Emboss. С помощью этой программы легко получать и фильтровать информацию об интересующих нас организмах, взятую из различных баз данных.
Информация о протеомах бактерий Escherichia coli (штамм K12) и Leuconostoc mesenteroides subsp. mesenteroides ATCC 8293 была взята из базы данных UniProt. C команды grep -c ">"легко посчитать число последовательностей (белков) в протеоме бактерии. Для посчета частоты встречаемости аминокислот использовалась команда wordcount с опцией -wordsize 1( подсчёт уникальных слов длины 1). Для составления итоговой таблицы был написан скрипт на Python. Для запуска программа запрашивает 2 аргумента командной строки (команда запуска: python3.6 table.py esch_aa.txt leum_aa.txt). Перечисленные файлы хранятся в директории ar-nikolya/term2/block2/pr7. В результате программа выводит на консоль суммарное число аминокислот обоих организмов, а также создаёт текстовый файл с готовой html-таблицей (файл result.txt).
Идентификатор протеома: UP000000625
Число последовательностей: 4352
Общее число аминокислот: 1353357
Идентификатор протеома: UP000000362
Число последовательностей: 2002
Общее число аминокислот: 606353
Аминокислотный остаток | Встречаемость в протеоме Escherichia coli(%) | Встречаемость в протеоме Leuconostoc mesenteroides (%) | Разность (%) |
L | 10.68 | 9.59 | 1.09 |
A | 9.51 | 7.94 | 1.57 |
I | 6.01 | 7.64 | -1.63 |
V | 7.07 | 7.18 | -0.11 |
G | 7.37 | 6.56 | 0.81 |
S | 5.8 | 6.42 | -0.62 |
K | 4.41 | 6.36 | -1.95 |
T | 5.39 | 6.3 | -0.91 |
D | 5.15 | 5.78 | -0.63 |
E | 5.76 | 5.61 | 0.15 |
N | 3.94 | 5.28 | -1.34 |
F | 3.89 | 4.46 | -0.57 |
Q | 4.44 | 4.4 | 0.04 |
R | 5.52 | 3.78 | 1.74 |
Y | 2.84 | 3.45 | -0.61 |
P | 4.43 | 3.35 | 1.08 |
M | 2.83 | 2.6 | 0.23 |
H | 2.27 | 2.02 | 0.25 |
W | 1.53 | 1.06 | 0.47 |
C | 1.16 | 0.22 | 0.94 |
Нетрудно заметить, что самые часто встречаемые аминокислотные остатки Escherichia coli - лейцин (L), аланин (A) и глицин (G), тогда как у Leuconostoc mesenteroides subsp. mesenteroides чаще встречаются лейцин (L), аланин (A) и изолейцин (I). Самые редкие аминокислоты в протеоме совпадают - это гистидин(H), триптофан (W) и цистеин (С). Примечательна довольна большая разность встречаемости ряда аминокислот в бактериях. Самая большая разность в пользу Escherichia coli наблюдается у остатка аргинина (R) - 1.74%, в пользу Leuconostoc mesenteroides subsp. mesenteroides - 1.95% - у остатка лизина (K).