Первый протеом - протеом E.coli с идентификатором P000000625. Он имеет длину 1356195 амк.
Второй протеом - протеом моей бактерии Moorella thermoacetica с идентификатором P000007053, имеющий длину 751866 амк, то есть белковый состав моей бактерии более компактизован (практически в два раза меньше).
Аминокислота | Процент в MT | Процент в EC | Разность процентов |
L | 11,23% | 10,67% | 0,56% |
A | 10,42% | 9,51% | 0,90% |
G | 8,59% | 7,37% | 1,22% |
V | 7,67% | 7,07% | 0,59% |
R | 6,87% | 5,51% | 1,36% |
E | 6,76% | 5,76% | 1,00% |
I | 6,04% | 6,01% | 0,03% |
P | 5,03% | 4,43% | 0,60% |
T | 5,01% | 5,40% | -0,39% |
D | 4,53% | 5,15% | -0,62% |
S | 4,36% | 5,80% | -1,44% |
K | 4,28% | 4,41% | -0,12% |
Q | 3,55% | 4,44% | -0,89% |
F | 3,43% | 3,89% | -0,46% |
N | 3,04% | 3,95% | -0,91% |
Y | 3,03% | 2,85% | 0,18% |
M | 2,24% | 2,82% | -0,58% |
H | 1,74% | 2,27% | -0,53% |
W | 1,13% | 1,53% | -0,40% |
C | 1,06% | 1,16% | -0,10% |
На мой взгляд, по сравнению протеомов в таком виде можно сделать очень мало выводов. Связываю я это с тем, что мы сравниваем величину, усредняющуюся по всем белкам организма. При этом любой организм будет иметь примерно одинаковый рейтинг встречаемости, а по отличиям нельзя сделать никаких чётких заявлений о протеоме. То есть основным моим предположением было то, что рейтинг доли аминокислот в протеомах этих бактерий будет не очень сильно различаться.
Как можно видеть из таблицы, я не ошибся. Для анализа встречаемости аминокислоты были разделены на 4 группы по встерчаемости (по 5 в каждой). Единственными выпадающими аминокислотами у E.coli относительно M.thermoacetica являются I и P.
Однако, сравнение по колонке с разностью процентов дало более интересные результаты. Так в протеоме M.thermoacetica было выявлено более высокое содержание гидрофобных аминокислот. Однако, в среднем, отлличия были в рамках одного процента. С чем можно связать это? Гидрофобные аминокислоты зачастую используются в трансмембранных доменах трансмембранных белков. Было предположено что имеется различие в Грам принадлежности этих групп. Грам+ бактерии имеют более сложное строение мембраны вследствие того, что на ней якорятся различные полисахариды, а также имеется лишь одна мембрана, что не позволяет упростить метаболизм и уменьшить количество трансмембранных белков в протеоме. M.thermoacetica, относящаяся к этому типу бактерий может иметь большее количество гидрофобных аминокислот в протеоме. После просмотра записи M.thermoacetica в UniProt было выявлено подтверждение гипотезы вследствие того, что она относится к Грам+. E.coli, как известно, Грам- бактерия. Однако, выводы делать рано, так как выборка из двух организмов не является достоверной.
Программы получают на вход одинаковые файлы и подсчитывают количество вхождений в них слов заданной длины. При этом wordcount имеет выдачу в виде списка, состоящего из (name - count), что позволяет без всяких проблем подавать его на вход простым скриптам. В свою очередь compseq выдаёт множество дополнительной информации. Например, ожидаемую и действительную долю данного слова среди всех слов, также также compseq не теряет последовательности, количество которых равно 0. Также он умеет отличать настоящие однобуквенные обозначения аминокислот. Всё ошибочное отправляется в Other. Этот пункт вместе с предыдущим делает compseq удобным для громоздких анализов и сопоставлений различных последовательностей без появления ошибок и утраты каких-то данных.
Но для такой маленькой работы как задание 1 лучше использовать wordcount, чтобы легче копировать в Excel.