Marina Gladkova

Задание 1. Частоты остатков в протеомах

Таблица 1. Общие данные о протеомах

Организм	ID протеома	Число последовательностей	Число остатков
Bacteroides thetaiotaomicron VPI-5482	UP000001414	4782	1864427
Escherichia coli (штамм K12)	UP000000625	4306	1356086

Таблица 2. Сравнение частот аминокислотных остатков в изучаемых протеомах

Аминокислотный остаток	Процент остатков в Bacteroides thetaiotaomicron VPI-5482	Процент остатков в в Escherichia coli (штамм K12)	Разность процентов
L	9,0156%	10,6726%	-1,6570%
I	6,8887%	6,0103%	0,8784%
A	6,8418%	9,5154%	-2,6736%
G	6,7796%	7,3746%	-0,5950%
K	6,6800%	4,4061%	2,2739%
E	6,5161%	5,7628%	0,7533%
S	6,2967%	5,8023%	0,4944%
V	6,2953%	7,0734%	-0,7781%
T	5,7093%	5,3991%	0,3102%
D	5,5401%	5,1510%	0,3891%
N	5,2586%	3,9454%	1,3132%
Y	4,6562%	2,8453%	1,8109%
F	4,5701%	3,8905%	0,6796%
R	4,5460%	5,5110%	-0,9650%
P	3,7845%	4,4254%	-0,6409%
Q	3,5042%	4,4401%	-0,9359%
M	2,7172%	2,8193%	-0,1020%
H	1,8146%	2,2664%	-0,4518%
W	1,3652%	1,5312%	-0,1659%
C	1,2201%	1,1576%	0,0625%
U	0,0000%	0,0002%	-0,0002%

Комментарий

Три наиболее часто встречающихся остатка в протеоме Bacteroides thetaiotaomicron VPI-5482 - L (лейцин), I (изолейцин) и A (аланин). Для протеома Escherichia coli - это L (лейцин), A (аланин) и G (глицин). Наиболее редкими для Bacteroides thetaiotaomicron VPI-5482 являются W (триптофан), C (цистеин) и U (селеноцистеин), замечу, что последний тип вообще не встречается. Для E. coli U (селеноцистеин), С (цистеин) и W (триптофан) также являются самыми редко встречающимися. Таким образом, U, C и W - наиболее редкие для обоих организмов, а L - самый часто встречающийся аминокислотный остаток как у Bacteroides thetaiotaomicron VPI-5482, так и у E. coli. Наибольшая разница по абсолютной величине (2,6736) в частотах наблюдается для остатков аланина.

Программа compseq

Compseq и wordcount похожи по синтаксису: <входной файл> -word <длина слова> <выходной файл>. Программа compseq считает количество уникальных слов заданной длины в последовательности (особенность - выдача в выходной файл наблюдаемой и ожидаемой частот встречаемости слова). Выходной файл в compseq содержит расширенную информацию: слово данного типа (Word), количество слов в файле (Obs Count), наблюдаемая частота встречаемости (Obs Frequency), предполагаемая частота встречаемости (Exp Frequency), последняя колонка - их соотношение (Obs/Exp Frequency). Wordcount выдает лишь само слово и его частоту. Важно отметить, что команда compseq имеет ограничения на длину слов. Еще одно отличие программ - значения в выходном файле в wordcount упорядочены в порядке убывания, а в compseq - по алфавиту. Кроме того, в compseq более широкий список квалификаторов. Я полагаю, что наиболее оптимальной программой для выполнения этого практикума была бы compseq так как в ней доступно больше функций, но также она работает примерно в 10 (compseq ≈0.5 сек, wordcount ≈5 сек) раз быстрее.

Источники:

[1] Manned.org
[2] Emboss.sourceforge.net

Сравнительный анализ протеомов бактерий Bacteroides thetaiotaomicron VPI-5482 и Escherichia coli (штамм K12) с помощью программ пакета EMBOSS

Задание 1. Частоты остатков в протеомах

Комментарий

Программа compseq

Источники: