На главную

Практикум по EMBOSS

Таблица с основными сравнительными характеристиками протеомов

Организм Escherichia coli (strain K12) (EsCo) Thermococcus kodakarensis (strain ATCC BAA-918 / JCM 12380 / KOD1) (TheKo)
Proteome ID UP000000625 UP000000536
Число последовательностей в протеоме 4313 2301
Число аминокислот в протеоме 1351622 637680

Сравнение относительного содержания различных аминокислот в протеомах

АК EsCo % АК от общего числа TheKo % АК от общего числа Разница в процентном содержании АК
L 10,6758% 10,4717% 0,2041%
E 5,7660% 8,8261% 3,0601%
V 7,0731% 8,2918% 1,2187%
G 7,3705% 7,5836% 0,2131%
A 9,5115% 7,4186% 2,0929%
I 6,0098% 6,9613% 0,9515%
K 4,4057% 6,8685% 2,4627%
R 5,5186% 5,8399% 0,3213%
S 5,7967% 5,0466% 0,7501%
D 5,1491% 4,7329% 0,4162%
T 5,3940% 4,6152% 0,7789%
P 4,4283% 4,3883% 0,0401%
F 3,8927% 4,3296% 0,4369%
Y 2,8447% 3,8317% 0,9870%
N 3,9369% 3,2138% 0,7231%
M 2,8225% 2,3375% 0,4850%
Q 4,4434% 1,8227% 2,6207%
H 2,2677% 1,5923% 0,6754%
W 1,5319% 1,2964% 0,2354%
C 1,1609% 0,5315% 0,6294%
U 0,0002% 0,0000% 0,0002%

Ссылка на таблицу в EXEL

Комментарий к таблице

Несмотря на то, что мой прокариотный организм является археей, а Escherichia coli - бактерия три наименее распространенные аминокислоты в их протеомах совпадают. Тремя наименее распространенными аминокислотами в обоих протеомах являются гистидин, триптофан и цистеин (в порядке уменьшения процентного содержания и без учета селеноцистеина). При этом этих аминокислот в целом больше содержится в протеоме кишечной палочки и разница в содержании этих аминокислот в протеомах двух организмов иногда почти доходит до 0,7% (в случае с гистидином), а в случае с цистеином, его содержание в протеоме кишечной палочки более чем в два раза превышает его содержание в архейном геноме (различия в содержании триптофана незначительны). Наиболее распространенными аминокислотами в протеоме археи являются лейцин глутамат и валин (их содержание в протеоме варьирует от 10,47% для лейцина до 8,29% у валина). Лейцин также является наиболее распространенной аминокислотой в протеоме кишечной палочки (10,67%), однако второй по распространенности аминокислотой является аланин (9,51%), а третьей по распространенности - глицин (7,37%) (т.е. наиболее распространенные остатки моего прокариотного организма отличаются от таковых у кишечной палочки, помимо общего для них лидера - лейцина). Глутамат является самой перепредставленной в протеоме археи аминокислотой относительно протеома кишечной палочки, т.к. его содержание в протеоме археи на 3,06% больше, чем его же содержание в протеоме бактерии. В то же всремя глутамин сильнее всего перепредставлен в протеоме кишечной палочки (относительно его же содержания в протеоме археи), так как его содержание в протеоме E. Coli на 2,62% больше его же содержания в протеоме археи.

Справка для пользователя по compseq и wordcount

wordcount

Wordcount - простая программа пакета emboss, которая считает количество уникальных слов в последовательностях. На вход программе нужно подавать название файла с последовательностью или ссылку в формате USA (параметр [-sequence]), размер уникальных слов, которые мы планируем посчитать (параметр -wordsize, в формате wordsize=n ), и название файла вывода. Помимо этого можно добавить параметр mincount который позволит не отображать встречаемость некоторых слов в выходном файле, если их количество не превышает заданного числа (задается в формате mincount=n). На выходе будет создан файл (*.wordcount), где для каждого найденного слова заданной длины будет посчитано число его встреч в файле.

compseq

Compseq - программа пакета emboss, позволяющая отобразить число встретившихся уникальных слов в последовательности, их реальную частоту встречаемости, предполагаемую частоту встречаемости (без дополгнительных параметров считается что все слова встречаются с одинаковой вероятностью) и отношение абсолютной частоты встречаемости к предполагаемой. В этой программе так же как и в wordcount можно задать последовательность, в которой мы будем считать слова ([-sequence]), при помощи параметра word можно задать длину слов (word=n), и в конце нужно задать имя выходного файла ([-outfile]) (по умолчанию он будет назван *.composition). У программы compfile множество дополнительных настраиваемых параметров. Так, например при помощи параметра -infile можно подать на вход программе какой-либо из ее предыдущих выводов и она примет частоты слов из этого файла, как предполагаемую частоту для слов из обрабатываемого файла (так например монжно сравнить частоты встречаемости одних и тех же слов в разных последовательностях). При помощи параметра -frame (нужно задать числом номер рамки) можно задать те рамки считывания, в которых будут считьться слова данной длины (количество таких рамок равно длине слов, которые мы считаем). Параметр * -[no]ignorebz позволит не считать слова содержащие буквы B или Z, где B значит Asp или Asn, а Z - Glu или Gln. Параметр * -reverse позволит посчитать частоты встречаемости слов еще и на комплементарной цепи нуклеиновой кислоты. Параметр -calcfreq позволит посчитать предполагаемые частоты встречаемости для найденных слов заданной длины исходя из частоты встречаемости букв в последовательности. Параметр -[no]zerocount позволит не записывать в выходной файл слова, которые не встретились ни разу.

Вывод

Если бы я имела возможность выбора программы, то я воспользовалась программой compseq так как она позволила бы мне сразу посчитать не только абсолютное число встреч определенных аминокислот, но и их частоту в протеоме, что позволило бы мне миновать возможность взаимодействия с формулами в Exel.


© Кристина Перевощикова, 2018