Работа с протеомами с помощью пакета Emboss

Сравнение протеомов бактерий

В этой таблице представлены некоторые сравнительные характеристики бактерий Escherichia coli (штамм K12) и Burkholderia sp. штамма CCGE 1001.

ОрганизмID протеомаКоличество белковКоличество аминокислотных остатков
Escherichia coliUP00000062543061356195
Burkholderia sp.UP00000709564032063536

Другая таблица описывает частоты аминокислот в двух протеомах.
Аминокислота% у Burkholderia% у E. coliРазница
A12,969,513,45
L10,2110,67-0,47
G8,167,370,78
V7,707,070,63
R7,045,511,53
S5,775,80-0,03
T5,335,40-0,07
D5,315,150,16
E5,205,76-0,56
P5,084,430,66
I4,596,01-1,42
F3,673,89-0,23
Q3,604,44-0,84
K3,104,41-1,31
N2,863,95-1,09
Y2,412,85-0,44
H2,362,270,09
M2,352,82-0,47
W1,361,53-0,18
C0,951,16-0,21
Таблица сгенерирована средствами Excel. Здесь находится вспомогательный файл, в котором происходила обработка выданных wordcount данных.

Наиболее часто в этих двух протеомах встречаются одинаковые аминокислоты: аланин, лейцин и глицин, но преимущественно встречающийся у E. coli аланин находится на втором месте по частоте у Burkholderia.
Малочисленные остатки совпадают в меньшей степени. На первом и втором месте по редкости цистеин и триптофан, а на третьем - метионин у Burkholderia и гистидин у E. coli.
Наибольшая разница в частоте аминокислот приходится на аланин, а наименьшая - на серин.

Сопоставление команд wordcount и compseq

Пакет emboss содержит программы с пересекающимися функциями, а wordcount и compseq - всего лишь один из примеров такой вырожденности. При вызове обе программы получат на вход имя файла, содержащего анализируемую последовательность(последовательности), количество букв в слове(уникальном сочетании символов) и выходной файл. Wordcount записывает в него таблицу из двух колонок: все присутствующие в тексте слова заданной длины, упорядоченные по количеству встреч; количество упоминаний. Compseq создает таблицу с большим количеством полезных данных. В файл записываются название последовательностей, данные на вход, строка с заданной длиной слова и общее количество символов в последовательности. В таблице есть заголовки и колонки с ожидаемой частотой(при условии случайного распределения), наблюдаемой частотой и их взаимосвязью. Стоит заметить, что compseq при задании длины слова больше 1 выводит все возможные сочетания, а не только присутствующие в исходной последовательности. Для работы, аналогичной заданию 1 я бы выбрал wordcount из-за простоты интегрирования результатов этой программы в электронную таблицу для многофакторного анализа и графического представления.


© Бусыгин Сергей, 2017