EMBOSS и протеомы

Из базы данных Uniprot Proteomes были скачаны протеомы Amphibacillus xylanus (идентификатор протеома UP000006294) и Escherichia coli (идентификатор протеома UP000000625) . С помощью команды "grep -c '>' filename.fasta" было подсчитано количество последовательностей в каждом протеоме (2384 для Amphibacillus xylanus и 4352 для Escherichia coli). В последствии при помощи программы на Python было подсчитано общее число аминокислот (713264 для Amphibacillus xylanus и 1353354 для Escherichia coli). Далее при помощи команды 'wordcount filename.fasta' с последующим вводом wordsize=1 'outputfilename.txt' были получены файлы с перечисленными аминокислотами.
На Python была написана программа, которая создаёт готовую для вставки на сайт html-таблицу и записывает её в текстовый файл. Таблица содержит информацию о процентном содержании аминокислот в протеомах, аминокислоты отсортированы по количеству в протеоме Amphibacillus xylanus

АминокислотаПроцент в протеоме AmphibacillusПроцент в геноме EscherichiaРазность
L9.7510.68-0.93
I8.526.012.51
E7.55.761.74
V6.737.07-0.34
A6.549.51-2.97
K6.514.412.1
G6.257.37-1.12
D5.865.150.71
S5.765.8-0.04
T5.55.390.11
N4.783.940.84
Q4.44.44-0.04
F4.363.890.47
R4.235.52-1.29
Y3.832.840.99
P3.424.43-1.01
M2.472.83-0.36
H2.12.27-0.17
W0.911.53-0.62
C0.571.16-0.59

Три самых частых у Amphibacillus xylanus - LIE, тогда как у Escherichia coli - LAG. Интересно, что при этом изолейцин имеет самую большую разницу в пользу Amphibcillus, а аланин - в пользу E. coli. Не могу предположить, что это может значить, так как данные аминокислоты схожи по свойствам. Почти все остальные отличия (за исключением глутаминовой кислоты) в 2 или более раз меньше этих. Три самые редкие аминокислоты совпадают в обоих организмах - HWC. Причём процент C у E.coli более чем в 2 раза больше, чем у Amphibacillus xylanus - можно предположить, что в её протеоме значительно больше дисульфидных мостиков.