Еmboss и протеомы

Файлы протеомов бактерий Escherichia coli (strain K12) и Salinispora tropica (strain ATCC BAA-916 / DSM 44818 / CNB-440) были загруженыв в fasta-формате .Данные о количестве последовательностей получены с помощью команд Bash "grep -c '>' E.coli.fasta" и "grep -c '>' S.tropica.fasta" и указаны в Таблице 1.

Таблица 1
Организм Идентификатор протеома Количество последовательностей
Salinispora tropica (strain ATCC BAA-916 / DSM 44818 / CNB-440) UP000000235 4,522
Escherichia coli (strain K12) UP000000625 4352

Частота встречаемости аминокислотных остатков в протеомах бактерий расчитана и приведена в формате html-таблицы с помощью кода Python3.6 (ссылка внизу страницы). Предварительно, на основе fasta-файлов протеомов были созданы wordcount-файлы (pr7testecoli.txt и pr7teststropica.txt) при помощи команд пакета EMBOSS: "wordcount E.coli.fasta -wordsize 1 -outfile pr7testecoli.txt" и "wordcount S.tropica.fasta -wordsize 1 -outfile pr7teststropica.txt". Полученные с помощью кода данные о суммарном количестве аминокислотных остатков и о частотах остатков в протеомах указаны в Таблице 2.

Таблица 2
Остаток Содержание в протеоме S. tropica Содержание в протеоме E. coli Разность
A 13.586 9.507 4.079
L 10.527 10.676 -0.149
G 9.328 7.366 1.962
V 9.042 7.07 1.972
R 8.431 5.521 2.91
T 6.302 5.395 0.907
P 6.227 4.429 1.798
D 5.952 5.147 0.805
E 5.232 5.762 -0.53
S 4.967 5.799 -0.832
I 3.291 6.012 -2.721
Q 2.908 4.443 -1.535
F 2.624 3.894 -1.27
H 2.208 2.269 -0.061
Y 2.016 2.845 -0.829
N 1.837 3.938 -2.101
M 1.629 2.825 -1.196
W 1.558 1.532 0.026
K 1.546 4.407 -2.861
C 0.79 1.162 -0.372
Общее число аминокислот 1517537 1353354 164183

В Таблице 2 не были указаны 3 остатка селеноцистеина (U) у E. coli. Наиболее часто встречающиеся остатки у обеих бактерий - аланин (A), лейцин (L), глицин (G). Самыми редко встречающимися в обоих протемах являются цистеин (C), триптофан (W) и лизин (K). Сильнее всего различаются содержания аланина (А, 4.079%) в пользу S. tropica и лизина (K, -2.861%) в пользу E. coli. Можно сделать вывод, что содержания аминокислотных остатков E. coli и S. tropica не имеют разительных отличий между собой.

Ссылка на код