EMBOSS

Общая информация о протеомах

Первый протеом - протеом E.coli с идентификатором P000000625. Он имеет длину 1356195 амк.

Второй протеом - протеом моей бактерии Moorella thermoacetica с идентификатором P000007053, имеющий длину 751866 амк, то есть белковый состав моей бактерии более компактизован (практически в два раза меньше).

Таблица с долей аминокислот в протеоме

Аминокислота	Процент в MT	Процент в EC	Разность процентов
L	11,23%	10,67%	0,56%
A	10,42%	9,51%	0,90%
G	8,59%	7,37%	1,22%
V	7,67%	7,07%	0,59%
R	6,87%	5,51%	1,36%
E	6,76%	5,76%	1,00%
I	6,04%	6,01%	0,03%
P	5,03%	4,43%	0,60%
T	5,01%	5,40%	-0,39%
D	4,53%	5,15%	-0,62%
S	4,36%	5,80%	-1,44%
K	4,28%	4,41%	-0,12%
Q	3,55%	4,44%	-0,89%
F	3,43%	3,89%	-0,46%
N	3,04%	3,95%	-0,91%
Y	3,03%	2,85%	0,18%
M	2,24%	2,82%	-0,58%
H	1,74%	2,27%	-0,53%
W	1,13%	1,53%	-0,40%
C	1,06%	1,16%	-0,10%

Краткое обсуждение

На мой взгляд, по сравнению протеомов в таком виде можно сделать очень мало выводов. Связываю я это с тем, что мы сравниваем величину, усредняющуюся по всем белкам организма. При этом любой организм будет иметь примерно одинаковый рейтинг встречаемости, а по отличиям нельзя сделать никаких чётких заявлений о протеоме. То есть основным моим предположением было то, что рейтинг доли аминокислот в протеомах этих бактерий будет не очень сильно различаться.

Как можно видеть из таблицы, я не ошибся. Для анализа встречаемости аминокислоты были разделены на 4 группы по встерчаемости (по 5 в каждой). Единственными выпадающими аминокислотами у E.coli относительно M.thermoacetica являются I и P.

Однако, сравнение по колонке с разностью процентов дало более интересные результаты. Так в протеоме M.thermoacetica было выявлено более высокое содержание гидрофобных аминокислот. Однако, в среднем, отлличия были в рамках одного процента. С чем можно связать это? Гидрофобные аминокислоты зачастую используются в трансмембранных доменах трансмембранных белков. Было предположено что имеется различие в Грам принадлежности этих групп. Грам+ бактерии имеют более сложное строение мембраны вследствие того, что на ней якорятся различные полисахариды, а также имеется лишь одна мембрана, что не позволяет упростить метаболизм и уменьшить количество трансмембранных белков в протеоме. M.thermoacetica, относящаяся к этому типу бактерий может иметь большее количество гидрофобных аминокислот в протеоме. После просмотра записи M.thermoacetica в UniProt было выявлено подтверждение гипотезы вследствие того, что она относится к Грам+. E.coli, как известно, Грам- бактерия. Однако, выводы делать рано, так как выборка из двух организмов не является достоверной.

WORDCOUNT vs COMPSEQ

Программы получают на вход одинаковые файлы и подсчитывают количество вхождений в них слов заданной длины. При этом wordcount имеет выдачу в виде списка, состоящего из (name - count), что позволяет без всяких проблем подавать его на вход простым скриптам. В свою очередь compseq выдаёт множество дополнительной информации. Например, ожидаемую и действительную долю данного слова среди всех слов, также также compseq не теряет последовательности, количество которых равно 0. Также он умеет отличать настоящие однобуквенные обозначения аминокислот. Всё ошибочное отправляется в Other. Этот пункт вместе с предыдущим делает compseq удобным для громоздких анализов и сопоставлений различных последовательностей без появления ошибок и утраты каких-то данных.

Но для такой маленькой работы как задание 1 лучше использовать wordcount, чтобы легче копировать в Excel.