Emboss и протеомы

В данном задании мы учимся работать c пакетом Emboss. С помощью EMBOSS можно получать информацию о нужных организмах, взятую из различных баз данных.

Частоты остатков в протеоме

Информация о протеомах бактерий Escherichia coli (штамм K12) и Thermoproteus tenax Kra strain 1 была взята из базы данных UniProt. C помощью команды grep -c ">"было подсчитано число последовательностей (белков) в протеоме бактерии. Для посчета частоты встречаемости аминокислот использовалась команда wordcount с опцией -wordsize 1. Для составления итоговой таблицы был написан скрипт на Python. В результате программа выводит суммарное число аминокислот обоих организмов и создаёт текстовый файл с html-таблицей table.txt

Идентификатор протеома: UP000000625

Число последовательностей: 4352

Общее число аминокислот: 1353357

Идентификатор протеома: UP000002654

Число последовательностей: 2047

Общее число аминокислот: 553635

Таблица 1.Сравнение процентов остатков в протеомах Escherichia coli (штамм K12) и Thermoproteus tenax Kra strain 1
Аминокислотный остаток Встречаемость в Escherichia coli Встречаемость в Thermoproteus tenax Kra strain 1 Разница
L 10.68 10.88 -0.2
A 9.51 10.07 -0.56
V 7.07 8.89 -1.82
G 7.37 7.89 -0.52
R 5.52 7.09 -1.57
E 5.76 6.7 -0.94
I 6.01 6.23 -0.22
S 5.8 5.66 0.14
P 4.43 5.08 -0.65
K 4.41 4.73 -0.32
D 5.15 4.54 0.61
T 5.39 4.25 1.14
Y 2.84 4.17 -1.33
F 3.89 3.43 0.46
N 3.94 2.58 1.36
Q 4.44 2.12 2.32
M 2.83 2.11 0.72
H 2.27 1.43 0.84
W 1.53 1.33 0.2
C 1.16 0.81 0.35

Нетрудно заметить, что самые часто встречаемые аминокислотные остатки Escherichia coli - лейцин (L), аланин (A) и глицин (G), тогда как у Thermoproteus tenax Kra strain 1 чаще встречаются (A)-аланин и (L)-лейцин (V)-валин. Самые редкие аминокислоты в протеоме совпадают - это гистидин(H), триптофан (W) и цистеин (С).