Таблица 1. Общие сведения о протеомах
Организм | ID протеома | Число последовательностей | Число остатков |
Escherichia coli K12 | UP000000625 | 4306 | 1356086 |
Pedobacter saltans DSM 12145 | UP000000310 | 3780 | 1370524 |
Таблица 2. Процент аминокислот в каждом протеоме
Аминокислотный остаток | % у Pedobacter saltans DSM 12145 | % у Escherichia coli K12 | Разность |
L | 9.29 | 10.67 | 1.38 |
K | 7.82 | 4.41 | 3.41 |
I | 7.81 | 6.01 | 1.8 |
G | 6.73 | 7.37 | 0.64 |
S | 6.66 | 5.8 | 0.86 |
A | 6.64 | 9.52 | 2.88 |
N | 6.21 | 3.95 | 2.26 |
V | 6.17 | 7.07 | 0.9 |
E | 6.11 | 5.76 | 0.35 |
T | 5.46 | 5.4 | 0.06 |
D | 5.41 | 5.15 | 0.26 |
F | 5.05 | 3.89 | 1.16 |
Y | 4.28 | 2.85 | 1.43 |
R | 3.73 | 5.51 | 1.78 |
P | 3.51 | 4.43 | 0.92 |
Q | 3.41 | 4.44 | 1.03 |
M | 2.07 | 2.82 | 0.75 |
H | 1.71 | 2.27 | 0.56 |
W | 1.16 | 1.53 | 0.37 |
C | 0.75 | 1.16 | 0.41 |
Самые часто встречающиеся аминокислотные остатки у Pedobacter saltans DSM 12145 - лейцин, лизин и изолейцин, у Escherichia coli K12 - лейцин, аланин и глицин. Наиболее редко у обоих организмов встречаются гистидин, триптофан и цистеин. максимальная разница как в процентном составе, так и в абсолютном числе в протеомах у лизина - 3.41% и 47486 остатков соответственно. Также у E.coli K12 присутствует селеноцистеин, который не вошел в таблицу.
Ссылка на Python-скрипт, использованный для получения данных
Команда запуска скрипта: python table.py *файл с выводом программы wordcount для протеома моей бактерии* *файл с выводов программы wordcount для протеома E.coli* *выходной файл*
Дополнительное задание
Команда на запуск программы compseq имеет следующий синтаксис: compseq *имя входного файла* -word *длина слова* -frame *сдвиг* *выходной файл*. Также возможны и другие параметры, однако наиболее примечателен флажок -frame, который определяет максимальную величину перекрывания слов, которая равна word-frame, т.е., если frame=word, то программа будет искать только неперекрывающиеся слова, что полезно при поисках, например, числа кодонов в последовательности. Также программа выводит некоторую информацию о протеоме в начале файла, а также дает информацию о частоте встречаемости слова, ожидаемую встречаемость слова, исходя из его длины, а также отношение этих двух частот. Выводит список слов по алфавиту, включая также слова с нулевой встречаемостью. Также можно отметить значительно более высокую скорость работу compseq по сравнению с wordcount при больших длинах слов. Насмотря на эти весомые преимущества, я использовал программу wordcount, так как она изначально выводит список в порядке убывания встречаемости, что значительно облегчило написание скрипта.