EMBOSS и протеомы

Из базы данных UniProt были скачаны протеомы двух бактерий:Chlorobaculum parvum NCIB 8327(протеом не референсный) и Escherichia coli K-12(референсный). Общая информация о протеомах рассматриваемых бактерий приведена в Таблице 1. С помощью команды "grep -c" было посчитано количество последовательностей в протеомах, хотя то же cfvjt число можно было получить из UniProt.

Таблица 1. Частоты остатков в протеомах.
Организм ID протеома Количество последовательностей Количество аминокислот
Chlorobaculum parvum NCIB 8327 UP000008811 2044 661982
Escherichia coli K-12 UP000000625 4352 1353357

С помощью программы 'wordcount' из пакета EMBOSS был получен файл(для каждой бактерии - свой), в котором для каждого аминокислотного остатка была посчитана его частота в протеоме(данные упорядочены в порядке убывания частоты). Далее была написана программа на python, которая расcчитывает
1)общее количество аминокислот
2)процент каждой аминокислоты в каждом протеоме
3)разницу процентов между двумя протеомами
4)составляет html-таблицу (Таблица 2) на основе полученных данных(см. пункты 2,3)
Данную программу можно запустить из командной строки командой 'python3 table_proteomes.py filename', где 'filname'это имя выходного файла,содержащего код html-таблицы, также программа выводит на стандартный вывод общее количество аминокислот для каждого протеома. Файлы, полученные с помощью программы 'wordcount', а также программа на python лежат по адресу '/home/students/y18/mtochilkina/public_html/term2'

Таблица 2. Частоты остатков в протеомах.
остаток(однобуквенный код) % в протеоме Chlorobaculum parvum NCIB 8327 % в протеоме Escherichia coli K-12 разность процентов [2]-[1]
L 10.02 10.68 0.66
A 8.99 9.51 0.51
G 7.58 7.37 -0.22
V 7.06 7.07 0.01
E 6.9 5.76 -1.14
S 6.39 5.8 -0.59
I 6.29 6.01 -0.28
R 5.78 5.52 -0.26
D 5.4 5.15 -0.25
K 5.17 4.41 -0.76
T 5.13 5.39 0.26
P 4.44 4.43 -0.01
F 4.32 3.89 -0.43
N 3.44 3.94 0.5
Q 3.24 4.44 1.2
Y 2.86 2.84 -0.02
M 2.71 2.83 0.12
H 2.09 2.27 0.18
W 1.11 1.53 0.42
C 1.07 1.16 0.09
U none 0.0 -

У рассматриваемых бактерий одинаковые самые частые аминокислоты (L,A,G) и самые редкие(H,W,C). В целом частота аминокислот в протеомах бактерий примерно одинаковая, самая большая разница составляет 1,2%(в пользу e.coli)- для Q, самая большая разница в пользу Chlorobaculum parvum NCIB 8327 составляет 1,14%- для E.

Источники

1)https://www.uniprot.org/proteomes/UP000008811- протеом Chlorobaculum parvum (strain NCIB 8327)
2)https://www.uniprot.org/proteomes/UP000000625 - протеом Escherichia coli (strain K12)