Из базы данных UniProt были скачаны протеомы двух бактерий:Chlorobaculum parvum NCIB 8327(протеом не референсный) и Escherichia coli K-12(референсный). Общая информация о протеомах рассматриваемых бактерий приведена в Таблице 1. С помощью команды "grep -c" было посчитано количество последовательностей в протеомах, хотя то же cfvjt число можно было получить из UniProt.
Организм | ID протеома | Количество последовательностей | Количество аминокислот |
---|---|---|---|
Chlorobaculum parvum NCIB 8327 | UP000008811 | 2044 | 661982 |
Escherichia coli K-12 | UP000000625 | 4352 | 1353357 |
С помощью программы 'wordcount' из пакета EMBOSS был получен файл(для каждой бактерии - свой),
в котором для каждого аминокислотного остатка была посчитана его частота в протеоме(данные упорядочены в порядке убывания частоты). Далее была написана программа на python, которая расcчитывает
1)общее количество аминокислот
2)процент каждой аминокислоты в каждом протеоме
3)разницу процентов между двумя протеомами
4)составляет html-таблицу (Таблица 2) на основе полученных данных(см. пункты 2,3)
Данную программу можно запустить из командной строки командой 'python3 table_proteomes.py filename', где 'filname'это имя выходного файла,содержащего код html-таблицы, также программа выводит на стандартный вывод общее количество аминокислот для каждого протеома.
Файлы, полученные с помощью программы 'wordcount', а также программа на python лежат по адресу '/home/students/y18/mtochilkina/public_html/term2'
остаток(однобуквенный код) | % в протеоме Chlorobaculum parvum NCIB 8327 | % в протеоме Escherichia coli K-12 | разность процентов [2]-[1] |
---|---|---|---|
L | 10.02 | 10.68 | 0.66 |
A | 8.99 | 9.51 | 0.51 |
G | 7.58 | 7.37 | -0.22 |
V | 7.06 | 7.07 | 0.01 |
E | 6.9 | 5.76 | -1.14 |
S | 6.39 | 5.8 | -0.59 |
I | 6.29 | 6.01 | -0.28 |
R | 5.78 | 5.52 | -0.26 |
D | 5.4 | 5.15 | -0.25 |
K | 5.17 | 4.41 | -0.76 |
T | 5.13 | 5.39 | 0.26 |
P | 4.44 | 4.43 | -0.01 |
F | 4.32 | 3.89 | -0.43 |
N | 3.44 | 3.94 | 0.5 |
Q | 3.24 | 4.44 | 1.2 |
Y | 2.86 | 2.84 | -0.02 |
M | 2.71 | 2.83 | 0.12 |
H | 2.09 | 2.27 | 0.18 |
W | 1.11 | 1.53 | 0.42 |
C | 1.07 | 1.16 | 0.09 |
U | none | 0.0 | - |
У рассматриваемых бактерий одинаковые самые частые аминокислоты (L,A,G) и самые редкие(H,W,C). В целом частота аминокислот в протеомах бактерий примерно одинаковая, самая большая разница составляет 1,2%(в пользу e.coli)- для Q, самая большая разница в пользу Chlorobaculum parvum NCIB 8327 составляет 1,14%- для E.
1)https://www.uniprot.org/proteomes/UP000008811- протеом Chlorobaculum parvum (strain NCIB 8327)
2)https://www.uniprot.org/proteomes/UP000000625 - протеом Escherichia coli (strain K12)