В данном задании мы учимся работать c пакетом Emboss. С помощью EMBOSS можно получать информацию о нужных организмах, взятую из различных баз данных.
Информация о протеомах бактерий Escherichia coli (штамм K12) и Thermoproteus tenax Kra strain 1 была взята из базы данных UniProt. C помощью команды grep -c ">"было подсчитано число последовательностей (белков) в протеоме бактерии. Для посчета частоты встречаемости аминокислот использовалась команда wordcount с опцией -wordsize 1. Для составления итоговой таблицы был написан скрипт на Python. В результате программа выводит суммарное число аминокислот обоих организмов и создаёт текстовый файл с html-таблицей table.txt
Идентификатор протеома: UP000000625
Число последовательностей: 4352
Общее число аминокислот: 1353357
Идентификатор протеома: UP000002654
Число последовательностей: 2047
Общее число аминокислот: 553635
Аминокислотный остаток | Встречаемость в Escherichia coli | Встречаемость в Thermoproteus tenax Kra strain 1 | Разница |
L | 10.68 | 10.88 | -0.2 |
A | 9.51 | 10.07 | -0.56 |
V | 7.07 | 8.89 | -1.82 |
G | 7.37 | 7.89 | -0.52 |
R | 5.52 | 7.09 | -1.57 |
E | 5.76 | 6.7 | -0.94 |
I | 6.01 | 6.23 | -0.22 |
S | 5.8 | 5.66 | 0.14 |
P | 4.43 | 5.08 | -0.65 |
K | 4.41 | 4.73 | -0.32 |
D | 5.15 | 4.54 | 0.61 |
T | 5.39 | 4.25 | 1.14 |
Y | 2.84 | 4.17 | -1.33 |
F | 3.89 | 3.43 | 0.46 |
N | 3.94 | 2.58 | 1.36 |
Q | 4.44 | 2.12 | 2.32 |
M | 2.83 | 2.11 | 0.72 |
H | 2.27 | 1.43 | 0.84 |
W | 1.53 | 1.33 | 0.2 |
C | 1.16 | 0.81 | 0.35 |
Нетрудно заметить, что самые часто встречаемые аминокислотные остатки Escherichia coli - лейцин (L), аланин (A) и глицин (G), тогда как у Thermoproteus tenax Kra strain 1 чаще встречаются (A)-аланин и (L)-лейцин (V)-валин. Самые редкие аминокислоты в протеоме совпадают - это гистидин(H), триптофан (W) и цистеин (С).