1. Частоты остатков в протеомах
Таблица 1. Общая информация о протеомах [1]
Аминокислотный остаток | Bacillus cereus (штамм ATCC 14579) | Escherichia coli (штамм K12) |
Идентификатор | UP000001417 | UP000000625 |
Число остатков | 1453967 | 1356195 |
Количество последовательностей | 5240 | 4306 |
В данном задании предлагалось сравнить протеомы модельного объекта Escherichia coli (штамм K12) и своего рабочего объекта. Для меня это Bacillus cereus (штамм ATCC 14579). В таблице 1 приведена общая информация о протеомах этих бактерий.
Таблица 2. Сравнение частоты встречаемости аминокислотных остатков
| Bacillus cereus (штамм ATCC 14579) | Escherichia coli (штамм K12) | Разница в процентах (B.C-E.C) |
L | 9,46% | 10,7% | -1,21% |
I | 8,07% | 6,0% | 2,06% |
E | 7,56% | 5,8% | 1,79% |
K | 7,45% | 4,4% | 3,04% |
V | 7,24% | 7,1% | 0,17% |
G | 6,73% | 7,4% | -0,65% |
A | 6,64% | 9,5% | -2,88% |
S | 5,83% | 5,8% | 0,03% |
T | 5,64% | 5,4% | 0,24% |
N | 4,70% | 3,9% | 0,75% |
D | 4,68% | 5,2% | -0,47% |
F | 4,65% | 3,9% | 0,76% |
Y | 3,74% | 2,8% | 0,90% |
Q | 3,73% | 4,4% | -0,71% |
R | 3,70% | 5,5% | -1,81% |
P | 3,43% | 4,4% | -1,00% |
M | 2,82% | 2,8% | 0,00% |
H | 2,09% | 2,3% | -0,17% |
W | 1,02% | 1,5% | -0,51% |
C | 0,83% | 1,2% | -0,33% |
Как видно из таблицы 2 самыми встречающимися остатками у
B. cereus являются лейцин, изолейцин и глутамат, а у
E.Coli - лейцин, аланин, глицин. Самые редко встречающиеся остатки совпали и данных организмов (цистеин, триптофан и гистидин). Возможно, это связано с тем, что триптофан и гистидин являются ароматическими аминокислотами и путь их биосинтеза довольно труден, а цистеин содержит дополнительный элемент серу. Наибольшая разница в пользу
B. cereus составила 3,04% для аминокислоты лизина, а в пользу
E.Coli для аминокислоты аланина -2,88%. Интересно, что эти максимальные разности в абсолютных (в количестве аминокислотных остков) и в процентных величинах совпали.
2. Сравнение функций wordcount и compseq
Команда wordcount как и команда compseq в качестве входных данных требует название исхоного файла, длину подсчитываемых слов и имя выходного файла. Если какой-то из этих параметров не введен изначально, то система запросит их в интерактивном режиме.
Команда wordcount также имеет опцию -mincount, позволяющая задвать минимальное количество слов, направляемое в качестве выходного данного в файл output (если количество посчитанных слов будет меньше указанного, они не будут указаны в файле). Выходной файл состоит из двух колонок, разъединенных табулятором (само слово и количество его встреч в данной последовательности). Строчки отстортированы по частоте (от наиболее часто встречаемого слова к наимению).
Команда compseq имеет гораздо больше опций, например -infile получает на вход файл, ранее преобразованный командой compseq, с которым можно дальше работать, -frame, позволяющий считать слова в рамках (0,1,2), -reverse, позволяющая считать слова в комплементарной последовательности и другие. Кроме того, выходной файл отличается от wordcount тем, что содержит название включенных в входной файл последовательностей, общее количество посчитанных слов и 4 колонки, в первой -искомые слова, во второй - наблюдаемая частота, во второй- ожидаемая частота (считаем, что слова должны встречаться с одинаковой частотой), в четвертой - отношение реальной к наблюдаемой частотам. Колонки разделены табулятором, строчки отсортированы в алфавитном порядке первой колонки.
Для выполнения данного задания я бы использовала коману wordcount, тк считаю, что информацию, предоставляемая compseq для данного задачи очень избыточна.
3. Список источников
[1] http://www.uniprot.org/proteomes/UP000000625