Файлы протеомов бактерий Halothiobacillus neapolitanus (strain ATCC 23641 / c2) (ID UP000009102) и Escherichia coli (strain K12) (ID UP000000625) были скачаны из базы данных UniProt в формате fasta.
При помощи команды "grep -Ec ">" e.coli.k12.fasta" в Bash были полученны количества последовательностей в fasta файлах протеомов:
Halothiobacillus neapolitanus: 2353
Escherichia coli: 4352
Количества аминокислотных остатков были посчитаны с использованием EMBOSS командой "wordcount e.coli.k12.fasta -wordsize 1 -outfile e.coli.k12_count.txt", полученные данные представлены в Таблице 1 с помощью скрипта python.
Доля аминокислот | |||
Остаток аминокислоты | Доля в E.coli K12 | Доля в H.neapolitanus | Разность |
---|---|---|---|
A | 9.51 | 10.69 | 1.18 |
L | 10.68 | 10.56 | 0.12 |
G | 7.37 | 7.55 | 0.18 |
V | 7.07 | 7.04 | 0.03 |
R | 5.52 | 6.17 | 0.65 |
S | 5.8 | 5.88 | 0.08 |
I | 6.01 | 5.75 | 0.26 |
D | 5.15 | 5.64 | 0.49 |
T | 5.39 | 5.47 | 0.07 |
E | 5.76 | 5.43 | 0.33 |
P | 4.43 | 5.0 | 0.57 |
Q | 4.44 | 4.38 | 0.06 |
F | 3.89 | 3.79 | 0.11 |
K | 4.41 | 3.74 | 0.67 |
N | 3.94 | 3.34 | 0.6 |
M | 2.83 | 2.55 | 0.28 |
H | 2.27 | 2.42 | 0.15 |
Y | 2.84 | 2.4 | 0.45 |
W | 1.53 | 1.39 | 0.14 |
C | 1.16 | 0.82 | 0.34 |
Сумма | 1353357.0 | 760451.0 | 592906.0 |
В Таблице 1 не указаны 3 остатка селеноцистенина (U) у E.coli. Наиболее редким у двух бактерий оказался цистеин (C), а самый частый остаток разный, но с минимальным разрывом в 0.01: у E.coli это лизин(L), а у H.neapolitanus - аланин(A). Везде кроме аланина(1.18) процентный разрыв не превышает единицы, следовательно геномы двух бактерий схожи по составу.