На главную

Практикум по EMBOSS

Таблица с основными сравнительными характеристиками протеомов

Организм	Escherichia coli (strain K12) (EsCo)	Thermococcus kodakarensis (strain ATCC BAA-918 / JCM 12380 / KOD1) (TheKo)
Proteome ID	UP000000625	UP000000536
Число последовательностей в протеоме	4313	2301
Число аминокислот в протеоме	1351622	637680

Сравнение относительного содержания различных аминокислот в протеомах

АК	EsCo % АК от общего числа	TheKo % АК от общего числа	Разница в процентном содержании АК
L	10,6758%	10,4717%	0,2041%
E	5,7660%	8,8261%	3,0601%
V	7,0731%	8,2918%	1,2187%
G	7,3705%	7,5836%	0,2131%
A	9,5115%	7,4186%	2,0929%
I	6,0098%	6,9613%	0,9515%
K	4,4057%	6,8685%	2,4627%
R	5,5186%	5,8399%	0,3213%
S	5,7967%	5,0466%	0,7501%
D	5,1491%	4,7329%	0,4162%
T	5,3940%	4,6152%	0,7789%
P	4,4283%	4,3883%	0,0401%
F	3,8927%	4,3296%	0,4369%
Y	2,8447%	3,8317%	0,9870%
N	3,9369%	3,2138%	0,7231%
M	2,8225%	2,3375%	0,4850%
Q	4,4434%	1,8227%	2,6207%
H	2,2677%	1,5923%	0,6754%
W	1,5319%	1,2964%	0,2354%
C	1,1609%	0,5315%	0,6294%
U	0,0002%	0,0000%	0,0002%

Ссылка на таблицу в EXEL

Комментарий к таблице

Несмотря на то, что мой прокариотный организм является археей, а Escherichia coli - бактерия три наименее распространенные аминокислоты в их протеомах совпадают. Тремя наименее распространенными аминокислотами в обоих протеомах являются гистидин, триптофан и цистеин (в порядке уменьшения процентного содержания и без учета селеноцистеина). При этом этих аминокислот в целом больше содержится в протеоме кишечной палочки и разница в содержании этих аминокислот в протеомах двух организмов иногда почти доходит до 0,7% (в случае с гистидином), а в случае с цистеином, его содержание в протеоме кишечной палочки более чем в два раза превышает его содержание в архейном геноме (различия в содержании триптофана незначительны). Наиболее распространенными аминокислотами в протеоме археи являются лейцин глутамат и валин (их содержание в протеоме варьирует от 10,47% для лейцина до 8,29% у валина). Лейцин также является наиболее распространенной аминокислотой в протеоме кишечной палочки (10,67%), однако второй по распространенности аминокислотой является аланин (9,51%), а третьей по распространенности - глицин (7,37%) (т.е. наиболее распространенные остатки моего прокариотного организма отличаются от таковых у кишечной палочки, помимо общего для них лидера - лейцина). Глутамат является самой перепредставленной в протеоме археи аминокислотой относительно протеома кишечной палочки, т.к. его содержание в протеоме археи на 3,06% больше, чем его же содержание в протеоме бактерии. В то же всремя глутамин сильнее всего перепредставлен в протеоме кишечной палочки (относительно его же содержания в протеоме археи), так как его содержание в протеоме E. Coli на 2,62% больше его же содержания в протеоме археи.

Справка для пользователя по compseq и wordcount

wordcount

Wordcount - простая программа пакета emboss, которая считает количество уникальных слов в последовательностях. На вход программе нужно подавать название файла с последовательностью или ссылку в формате USA (параметр [-sequence]), размер уникальных слов, которые мы планируем посчитать (параметр -wordsize, в формате wordsize=n ), и название файла вывода. Помимо этого можно добавить параметр mincount который позволит не отображать встречаемость некоторых слов в выходном файле, если их количество не превышает заданного числа (задается в формате mincount=n). На выходе будет создан файл (*.wordcount), где для каждого найденного слова заданной длины будет посчитано число его встреч в файле.

compseq

Compseq - программа пакета emboss, позволяющая отобразить число встретившихся уникальных слов в последовательности, их реальную частоту встречаемости, предполагаемую частоту встречаемости (без дополгнительных параметров считается что все слова встречаются с одинаковой вероятностью) и отношение абсолютной частоты встречаемости к предполагаемой. В этой программе так же как и в wordcount можно задать последовательность, в которой мы будем считать слова ([-sequence]), при помощи параметра word можно задать длину слов (word=n), и в конце нужно задать имя выходного файла ([-outfile]) (по умолчанию он будет назван *.composition). У программы compfile множество дополнительных настраиваемых параметров. Так, например при помощи параметра -infile можно подать на вход программе какой-либо из ее предыдущих выводов и она примет частоты слов из этого файла, как предполагаемую частоту для слов из обрабатываемого файла (так например монжно сравнить частоты встречаемости одних и тех же слов в разных последовательностях). При помощи параметра -frame (нужно задать числом номер рамки) можно задать те рамки считывания, в которых будут считьться слова данной длины (количество таких рамок равно длине слов, которые мы считаем). Параметр * -[no]ignorebz позволит не считать слова содержащие буквы B или Z, где B значит Asp или Asn, а Z - Glu или Gln. Параметр * -reverse позволит посчитать частоты встречаемости слов еще и на комплементарной цепи нуклеиновой кислоты. Параметр -calcfreq позволит посчитать предполагаемые частоты встречаемости для найденных слов заданной длины исходя из частоты встречаемости букв в последовательности. Параметр -[no]zerocount позволит не записывать в выходной файл слова, которые не встретились ни разу.

Вывод

Если бы я имела возможность выбора программы, то я воспользовалась программой compseq так как она позволила бы мне сразу посчитать не только абсолютное число встреч определенных аминокислот, но и их частоту в протеоме, что позволило бы мне миновать возможность взаимодействия с формулами в Exel.