Сравнительный анализ протеомов бактерий Bacteroides thetaiotaomicron VPI-5482 и Escherichia coli (штамм K12) с помощью программ пакета EMBOSS

Задание 1. Частоты остатков в протеомах

Таблица 1. Общие данные о протеомах
ОрганизмID протеомаЧисло последовательностейЧисло остатков
Bacteroides thetaiotaomicron VPI-5482UP00000141447821864427
Escherichia coli (штамм K12)UP00000062543061356086

Таблица 2. Сравнение частот аминокислотных остатков в изучаемых протеомах
Аминокислотный остатокПроцент остатков в Bacteroides thetaiotaomicron VPI-5482Процент остатков в в Escherichia coli (штамм K12)Разность процентов
L9,0156%10,6726%-1,6570%
I6,8887%6,0103%0,8784%
A6,8418%9,5154%-2,6736%
G6,7796%7,3746%-0,5950%
K6,6800%4,4061%2,2739%
E6,5161%5,7628%0,7533%
S6,2967%5,8023%0,4944%
V6,2953%7,0734%-0,7781%
T5,7093%5,3991%0,3102%
D5,5401%5,1510%0,3891%
N5,2586%3,9454%1,3132%
Y4,6562%2,8453%1,8109%
F4,5701%3,8905%0,6796%
R4,5460%5,5110%-0,9650%
P3,7845%4,4254%-0,6409%
Q3,5042%4,4401%-0,9359%
M2,7172%2,8193%-0,1020%
H1,8146%2,2664%-0,4518%
W1,3652%1,5312%-0,1659%
C1,2201%1,1576%0,0625%
U0,0000%0,0002%-0,0002%

Комментарий

Три наиболее часто встречающихся остатка в протеоме Bacteroides thetaiotaomicron VPI-5482 - L (лейцин), I (изолейцин) и A (аланин). Для протеома Escherichia coli - это L (лейцин), A (аланин) и G (глицин). Наиболее редкими для Bacteroides thetaiotaomicron VPI-5482 являются W (триптофан), C (цистеин) и U (селеноцистеин), замечу, что последний тип вообще не встречается. Для E. coli U (селеноцистеин), С (цистеин) и W (триптофан) также являются самыми редко встречающимися. Таким образом, U, C и W - наиболее редкие для обоих организмов, а L - самый часто встречающийся аминокислотный остаток как у Bacteroides thetaiotaomicron VPI-5482, так и у E. coli. Наибольшая разница по абсолютной величине (2,6736) в частотах наблюдается для остатков аланина.

Программа compseq

Compseq и wordcount похожи по синтаксису: <входной файл> -word <длина слова> <выходной файл>. Программа compseq считает количество уникальных слов заданной длины в последовательности (особенность - выдача в выходной файл наблюдаемой и ожидаемой частот встречаемости слова). Выходной файл в compseq содержит расширенную информацию: слово данного типа (Word), количество слов в файле (Obs Count), наблюдаемая частота встречаемости (Obs Frequency), предполагаемая частота встречаемости (Exp Frequency), последняя колонка - их соотношение (Obs/Exp Frequency). Wordcount выдает лишь само слово и его частоту. Важно отметить, что команда compseq имеет ограничения на длину слов. Еще одно отличие программ - значения в выходном файле в wordcount упорядочены в порядке убывания, а в compseq - по алфавиту. Кроме того, в compseq более широкий список квалификаторов. Я полагаю, что наиболее оптимальной программой для выполнения этого практикума была бы compseq так как в ней доступно больше функций, но также она работает примерно в 10 (compseq ≈0.5 сек, wordcount ≈5 сек) раз быстрее.

Источники:

[1] Manned.org
[2] Emboss.sourceforge.net

© Marina Gladkova, 2016