Наружу


Назад

EMBOSS





Общая информация о протеомах

Первый протеом - протеом E.coli с идентификатором P000000625. Он имеет длину 1356195 амк.

Второй протеом - протеом моей бактерии Moorella thermoacetica с идентификатором P000007053, имеющий длину 751866 амк, то есть белковый состав моей бактерии более компактизован (практически в два раза меньше).

Таблица с долей аминокислот в протеоме

Аминокислота Процент в MT Процент в EC Разность процентов
L 11,23% 10,67% 0,56%
A 10,42% 9,51% 0,90%
G 8,59% 7,37% 1,22%
V 7,67% 7,07% 0,59%
R 6,87% 5,51% 1,36%
E 6,76% 5,76% 1,00%
I 6,04% 6,01% 0,03%
P 5,03% 4,43% 0,60%
T 5,01% 5,40% -0,39%
D 4,53% 5,15% -0,62%
S 4,36% 5,80% -1,44%
K 4,28% 4,41% -0,12%
Q 3,55% 4,44% -0,89%
F 3,43% 3,89% -0,46%
N 3,04% 3,95% -0,91%
Y 3,03% 2,85% 0,18%
M 2,24% 2,82% -0,58%
H 1,74% 2,27% -0,53%
W 1,13% 1,53% -0,40%
C 1,06% 1,16% -0,10%

Краткое обсуждение

На мой взгляд, по сравнению протеомов в таком виде можно сделать очень мало выводов. Связываю я это с тем, что мы сравниваем величину, усредняющуюся по всем белкам организма. При этом любой организм будет иметь примерно одинаковый рейтинг встречаемости, а по отличиям нельзя сделать никаких чётких заявлений о протеоме. То есть основным моим предположением было то, что рейтинг доли аминокислот в протеомах этих бактерий будет не очень сильно различаться.

Как можно видеть из таблицы, я не ошибся. Для анализа встречаемости аминокислоты были разделены на 4 группы по встерчаемости (по 5 в каждой). Единственными выпадающими аминокислотами у E.coli относительно M.thermoacetica являются I и P.

Однако, сравнение по колонке с разностью процентов дало более интересные результаты. Так в протеоме M.thermoacetica было выявлено более высокое содержание гидрофобных аминокислот. Однако, в среднем, отлличия были в рамках одного процента. С чем можно связать это? Гидрофобные аминокислоты зачастую используются в трансмембранных доменах трансмембранных белков. Было предположено что имеется различие в Грам принадлежности этих групп. Грам+ бактерии имеют более сложное строение мембраны вследствие того, что на ней якорятся различные полисахариды, а также имеется лишь одна мембрана, что не позволяет упростить метаболизм и уменьшить количество трансмембранных белков в протеоме. M.thermoacetica, относящаяся к этому типу бактерий может иметь большее количество гидрофобных аминокислот в протеоме. После просмотра записи M.thermoacetica в UniProt было выявлено подтверждение гипотезы вследствие того, что она относится к Грам+. E.coli, как известно, Грам- бактерия. Однако, выводы делать рано, так как выборка из двух организмов не является достоверной.

WORDCOUNT vs COMPSEQ

Программы получают на вход одинаковые файлы и подсчитывают количество вхождений в них слов заданной длины. При этом wordcount имеет выдачу в виде списка, состоящего из (name - count), что позволяет без всяких проблем подавать его на вход простым скриптам. В свою очередь compseq выдаёт множество дополнительной информации. Например, ожидаемую и действительную долю данного слова среди всех слов, также также compseq не теряет последовательности, количество которых равно 0. Также он умеет отличать настоящие однобуквенные обозначения аминокислот. Всё ошибочное отправляется в Other. Этот пункт вместе с предыдущим делает compseq удобным для громоздких анализов и сопоставлений различных последовательностей без появления ошибок и утраты каких-то данных.

Но для такой маленькой работы как задание 1 лучше использовать wordcount, чтобы легче копировать в Excel.


© Попов Алексей, 2016 г.