Работа с EMBOSS.

EMBOSS - комплект программ, запускаемых через командную строку linux, позволяющий анализировать протеомы. Данный практикум посвящён ознакомлению с EMBOSS.

Первая таблица содержит общую информацию о протеомах Escherichia coli и Dechloromonas aromatica.

Краткая характеристика E.coli и D.aromatica
Организм	Идентификатор протеома	Количество последовательностей в протеоме	Общее число аминокислот
E. coli	UP000000625	4352	1353357
D. aromatica	UP000000550	4155	1366941

Протеом E.coli немного больше протеома D. aromatica, у Dechloromonas немного больше в среднем белки, но эти отличия не слишком велики и мало о чём говорят.

В приведённой ниже таблице продемонстрированы результаты работы с командой wordcount.

Аминокслотный состав протеомов Escherichia coli и Dechloromonas aromatica
Аминокислотный остаток	Содержание в E. coli	Содержание в D. aromatica	Различие
A	9.51%	11.47%	-1.96%
L	10.68%	10.83%	-0.15%
G	7.37%	7.99%	-0.62%
V	7.07%	7.09%	-0.02%
R	5.52%	6.32%	-0.80%
E	5.76%	5.99%	-0.22%
S	5.80%	5.64%	0.16%
I	6.01%	5.35%	0.67%
D	5.15%	5.30%	-0.15%
T	5.39%	5.05%	0.34%
P	4.43%	4.84%	-0.41%
K	4.41%	4.09%	0.31%
Q	4.44%	3.77%	0.68%
F	3.89%	3.76%	0.13%
N	3.94%	3.09%	0.84%
M	2.83%	2.50%	0.32%
Y	2.84%	2.35%	0.49%
H	2.27%	2.19%	0.08%
W	1.53%	1.36%	0.17%
C	1.16%	1.03%	0.13%

В общем распространённость различных аминокислот у этих двух бактерий довольно близка, однако есть и различия. Распространённость A на целых 1.96% выше у D. aromatica. Наибольшее различие в пользу E.coli в доле аспаргина, которого у неё на 0.84% больше. Объяснить такие различия тяжело, вероятно, они появились в результате большей частью случайных процессов. Тройки наиболее и наименее распространённых аминокислот одинаковы в обоих протеомах: Лейцин, аланин и глицин чаще всего встречаются в D. aromatica, в E. coli Ala обгоняет Leu. Эти аминокислоты гидрофобные алифатические, они образуют гидрофобные каналы и гидрофобные связи, в общем составляют основу белка.
Самые редкие аминокислоты в обеих бактериях - H, W, C. Эти аминокислоты обычно встречаются в активных центрах(гистидин может участвовать в образовании солевых мостиков) Редкость цистеина может объясняться его особыми свойствами и функциями: он является сильным восстановителем, что делает его присутствие на поверхности белка крайне нежелательным, так как при его случайном окислении может нарушиться структура и функциональная активность белка, например, вследствие образования нежелательного дисульфидного мостика. В общем, E. coli и D. aromatica - довольно дальние родственники, поэтому неудивительны различия в распределении популярностей аминокислот. С другой стороны, у многих аминокислот есть обычно свойственная им функция, всвязи с чем списки наиболее и наименее популярных остатков даже у дальнеродственных организмов схожи.

В таблице ниже приведено сравнение команд wordcount и compseq. Обе команды подсчитывают частоту встречаемости слов, однако имеют свои особенности и используются в разных случаях

Сравнительная характеристика команд compseq и wordcount
Характеристика	Особенность wordcount	Особенность compseq
Формат входного файла	Файлы fasta и другие форматы, содежащие последовательности
Формат выводного файла	В порядке уменьшения распространённости слова в виде двух столбиков: {слово} {число встреч} см. пример(лучше смотеть через far)	В начале файла описаны особенности получения файла: команда compseq, способ подсчёта вероятностей и названия последовательностей, найденных в исходном файле Затем в двух строках указаны размер встретившегося слова и общее количество таких слов в последовательности(ях) В оставшихся строках находится описание частотности всех возможных слов в алфавитном порядке в формате 5 столбцов: {слово} {число встреч} {доля среди слов} {рассчитанная доля} {отношение реальной доли к рассчитанной} см. пример(лучше смотреть через far)
Опции	-mincount {integer>0} позволяет отсеять слова, встречающиеся ниже некоторого порога. Других дополнительных возможностей у wordcount нет	-infile {имя файла, полученного с помощью compseq} устанавливает теоретическую распространённость слова равной подсчитанной уже распространённостью в другом наборе последовательностей -frame {номер рамки} позволяет считать слова только в одной рамке. С помощью этой опции можно, например, подсчитать количество кодонов в открытой рамке считывания -reverse в случае нуклеиновых кислот позволяет искать не только само слово, но и комплементарное ему. -calcfreq. обычно считается, что все слова равновероятны. Использование calcfreq позволяет оценку уточнить: вероятность слова рассчитывается с учётом распространённости аминокислот/нуклеотидов -nozero уменьшает объём выводного файла, не добавляя в него не встретившиеся слова
Вывод	wordcount полезен при составлении рейтингов наиболее популярных слов. Эта команда проста и прямолинейна а полученные файлы легче обработать, поэтому в данном практикуме она была более полезна	compseq имеет больший потенциал, с его помощью можно сравнивать как популярности слов внутри белка, так и встречаемость одного слова в разных последовательностях. В общем случае compseq может заменить wordcount, но в данном практикуме его возможности были избыточны.

Скачать скрипт Python
Необработанные данные об аминокислотном составе протеомов E.coli и D. aromatica

EMBOSS позволяет совершать полезные действия с протеомами, в частности, определять их аминокислотный состав и сравнивать их.

Работа с EMBOSS.

Навигация