На
главную

Сравнение протеомов Bacillus cereus (штамм ATCC 14579)
и Escherichia coli (штамм K12)

1. Частоты остатков в протеомах

Таблица 1. Общая информация о протеомах [1]
Аминокислотный
остаток
Bacillus cereus (штамм ATCC 14579)Escherichia coli (штамм K12)
ИдентификаторUP000001417UP000000625
Число остатков14539671356195
Количество последовательностей52404306

В данном задании предлагалось сравнить протеомы модельного объекта Escherichia coli (штамм K12) и своего рабочего объекта. Для меня это Bacillus cereus (штамм ATCC 14579). В таблице 1 приведена общая информация о протеомах этих бактерий.

Таблица 2. Сравнение частоты встречаемости аминокислотных остатков
Bacillus cereus (штамм ATCC 14579)Escherichia coli (штамм K12)Разница в процентах (B.C-E.C)
L9,46%10,7%-1,21%
I8,07%6,0%2,06%
E7,56%5,8%1,79%
K7,45%4,4%3,04%
V7,24%7,1%0,17%
G6,73%7,4%-0,65%
A6,64%9,5%-2,88%
S5,83%5,8%0,03%
T5,64%5,4%0,24%
N4,70%3,9%0,75%
D4,68%5,2%-0,47%
F4,65%3,9%0,76%
Y3,74%2,8%0,90%
Q3,73%4,4%-0,71%
R3,70%5,5%-1,81%
P3,43%4,4%-1,00%
M2,82%2,8%0,00%
H2,09%2,3%-0,17%
W1,02%1,5%-0,51%
C0,83%1,2%-0,33%

Как видно из таблицы 2 самыми встречающимися остатками у B. cereus являются лейцин, изолейцин и глутамат, а у E.Coli - лейцин, аланин, глицин. Самые редко встречающиеся остатки совпали и данных организмов (цистеин, триптофан и гистидин). Возможно, это связано с тем, что триптофан и гистидин являются ароматическими аминокислотами и путь их биосинтеза довольно труден, а цистеин содержит дополнительный элемент серу. Наибольшая разница в пользу B. cereus составила 3,04% для аминокислоты лизина, а в пользу E.Coli для аминокислоты аланина -2,88%. Интересно, что эти максимальные разности в абсолютных (в количестве аминокислотных остков) и в процентных величинах совпали.

2. Сравнение функций wordcount и compseq

Команда wordcount как и команда compseq в качестве входных данных требует название исхоного файла, длину подсчитываемых слов и имя выходного файла. Если какой-то из этих параметров не введен изначально, то система запросит их в интерактивном режиме.
Команда wordcount также имеет опцию -mincount, позволяющая задвать минимальное количество слов, направляемое в качестве выходного данного в файл output (если количество посчитанных слов будет меньше указанного, они не будут указаны в файле). Выходной файл состоит из двух колонок, разъединенных табулятором (само слово и количество его встреч в данной последовательности). Строчки отстортированы по частоте (от наиболее часто встречаемого слова к наимению).
Команда compseq имеет гораздо больше опций, например -infile получает на вход файл, ранее преобразованный командой compseq, с которым можно дальше работать, -frame, позволяющий считать слова в рамках (0,1,2), -reverse, позволяющая считать слова в комплементарной последовательности и другие. Кроме того, выходной файл отличается от wordcount тем, что содержит название включенных в входной файл последовательностей, общее количество посчитанных слов и 4 колонки, в первой -искомые слова, во второй - наблюдаемая частота, во второй- ожидаемая частота (считаем, что слова должны встречаться с одинаковой частотой), в четвертой - отношение реальной к наблюдаемой частотам. Колонки разделены табулятором, строчки отсортированы в алфавитном порядке первой колонки.
Для выполнения данного задания я бы использовала коману wordcount, тк считаю, что информацию, предоставляемая compseq для данного задачи очень избыточна.

3. Список источников

[1] http://www.uniprot.org/proteomes/UP000000625