С заглавной страницы UniProt, перейдя по гиперссылке Proteomes и используя расширенный поиск, я нашла протеомы Escherichia coli (strain K12) и своей бактерии Thermobifida fusca (strain YX). Далее я щёлкнула по числу белков и загрузила файл с протеомом в формате fasta. Файл был запакован, поэтому я распаковала его командой gunzip.
grep -cE '>' Ecoli.fasta
grep -cE '>' Thefy.fasta
wordcount -wordsize 1 Ecoli.fasta (выводит файл, в котором подсчитано количество каждого а.о.)
wordcount -wordsize 1 Thefy.fasta
И последуюшего использования скрипта , написанного на python для получения суммы по всем а.к.
Аминокислотный остаток | Встречаемость в протеоме Escherichia coli(%) | Встречаемость в протеоме Thermobifida fusca(%) | Разность(%) |
A | 9.51 | 12.6 | -3 |
L | 10.68 | 10.41 | 0 |
V | 7.07 | 8.69 | -1 |
G | 7.37 | 8.38 | -1 |
R | 5.52 | 8.2 | -2 |
E | 5.76 | 6.35 | 0 |
P | 4.43 | 6.12 | -1 |
T | 5.39 | 6.0 | 0 |
D | 5.15 | 5.82 | 0 |
S | 5.8 | 5.22 | 0 |
I | 6.01 | 3.88 | 2 |
Q | 4.44 | 3.0 | 1 |
F | 3.89 | 2.83 | 1 |
H | 2.27 | 2.32 | 0 |
Y | 2.84 | 2.19 | 0 |
K | 4.41 | 2.0 | 2 |
N | 3.94 | 1.95 | 1 |
M | 2.83 | 1.75 | 1 |
W | 1.53 | 1.5 | 0 |
C | 1.16 | 0.8 | 0 |
Из таблицы видно, что лейцин является наиболее часто встречаемым аминокислотным остатком для протеомов обеих бактерий. Самые редкие а.о. - цистеин и триптофан. Важно отметить, что разность между процентным содержанием аланина, аргинина, изолейцина и лизина приблизительно составляет 2%. Такой отрыв является довольно существенным т.к. в целом соответствующие а.о. встречаются в протеомах в одинаковых количествах.