EMBOSS и протеомы

Файлы последовательностей

Файлы протеомов бактерий Halothiobacillus neapolitanus (strain ATCC 23641 / c2) (ID UP000009102) и Escherichia coli (strain K12) (ID UP000000625) были скачаны из базы данных UniProt в формате fasta.

Получение данных из файлов

При помощи команды "grep -Ec ">" e.coli.k12.fasta" в Bash были полученны количества последовательностей в fasta файлах протеомов:
Halothiobacillus neapolitanus: 2353
Escherichia coli: 4352
Количества аминокислотных остатков были посчитаны с использованием EMBOSS командой "wordcount e.coli.k12.fasta -wordsize 1 -outfile e.coli.k12_count.txt", полученные данные представлены в Таблице 1 с помощью скрипта python.

Таблица 1.

Доля аминокислот

Остаток аминокислоты Доля в E.coli K12 Доля в H.neapolitanus Разность
A 9.51 10.69 1.18
L 10.68 10.56 0.12
G 7.37 7.55 0.18
V 7.07 7.04 0.03
R 5.52 6.17 0.65
S 5.8 5.88 0.08
I 6.01 5.75 0.26
D 5.15 5.64 0.49
T 5.39 5.47 0.07
E 5.76 5.43 0.33
P 4.43 5.0 0.57
Q 4.44 4.38 0.06
F 3.89 3.79 0.11
K 4.41 3.74 0.67
N 3.94 3.34 0.6
M 2.83 2.55 0.28
H 2.27 2.42 0.15
Y 2.84 2.4 0.45
W 1.53 1.39 0.14
C 1.16 0.82 0.34
Сумма 1353357.0 760451.0 592906.0

В Таблице 1 не указаны 3 остатка селеноцистенина (U) у E.coli. Наиболее редким у двух бактерий оказался цистеин (C), а самый частый остаток разный, но с минимальным разрывом в 0.01: у E.coli это лизин(L), а у H.neapolitanus - аланин(A). Везде кроме аланина(1.18) процентный разрыв не превышает единицы, следовательно геномы двух бактерий схожи по составу.