На главную |
Практикум по EMBOSS
Таблица с основными сравнительными характеристиками протеомов
Организм | Escherichia coli (strain K12) (EsCo) | Thermococcus kodakarensis (strain ATCC BAA-918 / JCM 12380 / KOD1) (TheKo) |
Proteome ID | UP000000625 | UP000000536 |
Число последовательностей в протеоме | 4313 | 2301 |
Число аминокислот в протеоме | 1351622 | 637680 |
Сравнение относительного содержания различных аминокислот в протеомах
АК | EsCo % АК от общего числа | TheKo % АК от общего числа | Разница в процентном содержании АК |
L | 10,6758% | 10,4717% | 0,2041% |
E | 5,7660% | 8,8261% | 3,0601% |
V | 7,0731% | 8,2918% | 1,2187% |
G | 7,3705% | 7,5836% | 0,2131% |
A | 9,5115% | 7,4186% | 2,0929% |
I | 6,0098% | 6,9613% | 0,9515% |
K | 4,4057% | 6,8685% | 2,4627% |
R | 5,5186% | 5,8399% | 0,3213% |
S | 5,7967% | 5,0466% | 0,7501% |
D | 5,1491% | 4,7329% | 0,4162% |
T | 5,3940% | 4,6152% | 0,7789% |
P | 4,4283% | 4,3883% | 0,0401% |
F | 3,8927% | 4,3296% | 0,4369% |
Y | 2,8447% | 3,8317% | 0,9870% |
N | 3,9369% | 3,2138% | 0,7231% |
M | 2,8225% | 2,3375% | 0,4850% |
Q | 4,4434% | 1,8227% | 2,6207% |
H | 2,2677% | 1,5923% | 0,6754% |
W | 1,5319% | 1,2964% | 0,2354% |
C | 1,1609% | 0,5315% | 0,6294% |
U | 0,0002% | 0,0000% | 0,0002% |
Комментарий к таблице
Несмотря на то, что мой прокариотный организм является археей, а Escherichia coli - бактерия три наименее распространенные аминокислоты в их протеомах совпадают. Тремя наименее распространенными аминокислотами в обоих протеомах являются гистидин, триптофан и цистеин (в порядке уменьшения процентного содержания и без учета селеноцистеина). При этом этих аминокислот в целом больше содержится в протеоме кишечной палочки и разница в содержании этих аминокислот в протеомах двух организмов иногда почти доходит до 0,7% (в случае с гистидином), а в случае с цистеином, его содержание в протеоме кишечной палочки более чем в два раза превышает его содержание в архейном геноме (различия в содержании триптофана незначительны). Наиболее распространенными аминокислотами в протеоме археи являются лейцин глутамат и валин (их содержание в протеоме варьирует от 10,47% для лейцина до 8,29% у валина). Лейцин также является наиболее распространенной аминокислотой в протеоме кишечной палочки (10,67%), однако второй по распространенности аминокислотой является аланин (9,51%), а третьей по распространенности - глицин (7,37%) (т.е. наиболее распространенные остатки моего прокариотного организма отличаются от таковых у кишечной палочки, помимо общего для них лидера - лейцина). Глутамат является самой перепредставленной в протеоме археи аминокислотой относительно протеома кишечной палочки, т.к. его содержание в протеоме археи на 3,06% больше, чем его же содержание в протеоме бактерии. В то же всремя глутамин сильнее всего перепредставлен в протеоме кишечной палочки (относительно его же содержания в протеоме археи), так как его содержание в протеоме E. Coli на 2,62% больше его же содержания в протеоме археи. |
Справка для пользователя по compseq и wordcount
wordcount
Wordcount - простая программа пакета emboss, которая считает количество уникальных слов в последовательностях. На вход программе нужно подавать название файла с последовательностью или ссылку в формате USA (параметр [-sequence]), размер уникальных слов, которые мы планируем посчитать (параметр -wordsize, в формате wordsize=n ), и название файла вывода. Помимо этого можно добавить параметр mincount который позволит не отображать встречаемость некоторых слов в выходном файле, если их количество не превышает заданного числа (задается в формате mincount=n). На выходе будет создан файл (*.wordcount), где для каждого найденного слова заданной длины будет посчитано число его встреч в файле.
compseq
Compseq - программа пакета emboss, позволяющая отобразить число встретившихся уникальных слов в последовательности, их реальную частоту встречаемости, предполагаемую частоту встречаемости (без дополгнительных параметров считается что все слова встречаются с одинаковой вероятностью) и отношение абсолютной частоты встречаемости к предполагаемой. В этой программе так же как и в wordcount можно задать последовательность, в которой мы будем считать слова ([-sequence]), при помощи параметра word можно задать длину слов (word=n), и в конце нужно задать имя выходного файла ([-outfile]) (по умолчанию он будет назван *.composition). У программы compfile множество дополнительных настраиваемых параметров. Так, например при помощи параметра -infile можно подать на вход программе какой-либо из ее предыдущих выводов и она примет частоты слов из этого файла, как предполагаемую частоту для слов из обрабатываемого файла (так например монжно сравнить частоты встречаемости одних и тех же слов в разных последовательностях). При помощи параметра -frame (нужно задать числом номер рамки) можно задать те рамки считывания, в которых будут считьться слова данной длины (количество таких рамок равно длине слов, которые мы считаем). Параметр * -[no]ignorebz позволит не считать слова содержащие буквы B или Z, где B значит Asp или Asn, а Z - Glu или Gln. Параметр * -reverse позволит посчитать частоты встречаемости слов еще и на комплементарной цепи нуклеиновой кислоты. Параметр -calcfreq позволит посчитать предполагаемые частоты встречаемости для найденных слов заданной длины исходя из частоты встречаемости букв в последовательности. Параметр -[no]zerocount позволит не записывать в выходной файл слова, которые не встретились ни разу.
Вывод
Если бы я имела возможность выбора программы, то я воспользовалась программой compseq так как она позволила бы мне сразу посчитать не только абсолютное число встреч определенных аминокислот, но и их частоту в протеоме, что позволило бы мне миновать возможность взаимодействия с формулами в Exel.