Работа с EMBOSS.

EMBOSS - комплект программ, запускаемых через командную строку linux, позволяющий анализировать протеомы. Данный практикум посвящён ознакомлению с EMBOSS.

Первая таблица содержит общую информацию о протеомах Escherichia coli и Dechloromonas aromatica.

Краткая характеристика E.coli и D.aromatica
Организм
E. coli UP000000625 4352 1353357
D. aromatica UP000000550 4155 1366941

Протеом E.coli немного больше протеома D. aromatica, у Dechloromonas немного больше в среднем белки, но эти отличия не слишком велики и мало о чём говорят.

В приведённой ниже таблице продемонстрированы результаты работы с командой wordcount.

Аминокслотный состав протеомов Escherichia coli и Dechloromonas aromatica
Аминокислотный остаток
A 9.51% 11.47% -1.96%
L 10.68% 10.83% -0.15%
G 7.37% 7.99% -0.62%
V 7.07% 7.09% -0.02%
R 5.52% 6.32% -0.80%
E 5.76% 5.99% -0.22%
S 5.80% 5.64% 0.16%
I 6.01% 5.35% 0.67%
D 5.15% 5.30% -0.15%
T 5.39% 5.05% 0.34%
P 4.43% 4.84% -0.41%
K 4.41% 4.09% 0.31%
Q 4.44% 3.77% 0.68%
F 3.89% 3.76% 0.13%
N 3.94% 3.09% 0.84%
M 2.83% 2.50% 0.32%
Y 2.84% 2.35% 0.49%
H 2.27% 2.19% 0.08%
W 1.53% 1.36% 0.17%
C 1.16% 1.03% 0.13%

В общем распространённость различных аминокислот у этих двух бактерий довольно близка, однако есть и различия. Распространённость A на целых 1.96% выше у D. aromatica. Наибольшее различие в пользу E.coli в доле аспаргина, которого у неё на 0.84% больше. Объяснить такие различия тяжело, вероятно, они появились в результате большей частью случайных процессов. Тройки наиболее и наименее распространённых аминокислот одинаковы в обоих протеомах: Лейцин, аланин и глицин чаще всего встречаются в D. aromatica, в E. coli Ala обгоняет Leu. Эти аминокислоты гидрофобные алифатические, они образуют гидрофобные каналы и гидрофобные связи, в общем составляют основу белка.
Самые редкие аминокислоты в обеих бактериях - H, W, C. Эти аминокислоты обычно встречаются в активных центрах(гистидин может участвовать в образовании солевых мостиков) Редкость цистеина может объясняться его особыми свойствами и функциями: он является сильным восстановителем, что делает его присутствие на поверхности белка крайне нежелательным, так как при его случайном окислении может нарушиться структура и функциональная активность белка, например, вследствие образования нежелательного дисульфидного мостика. В общем, E. coli и D. aromatica - довольно дальние родственники, поэтому неудивительны различия в распределении популярностей аминокислот. С другой стороны, у многих аминокислот есть обычно свойственная им функция, всвязи с чем списки наиболее и наименее популярных остатков даже у дальнеродственных организмов схожи.

В таблице ниже приведено сравнение команд wordcount и compseq. Обе команды подсчитывают частоту встречаемости слов, однако имеют свои особенности и используются в разных случаях

Сравнительная характеристика команд compseq и wordcount
Характеристика
Формат входного файла Файлы fasta и другие форматы, содежащие последовательности
Формат выводного файла В порядке уменьшения распространённости слова в виде двух столбиков:
 {слово}              {число встреч}  
см. пример(лучше смотеть через far)
В начале файла описаны особенности получения файла: команда compseq, способ подсчёта вероятностей и названия последовательностей, найденных в исходном файле
Затем в двух строках указаны размер встретившегося слова и общее количество таких слов в последовательности(ях)
В оставшихся строках находится описание частотности всех возможных слов в алфавитном порядке в формате 5 столбцов: {слово} {число встреч} {доля среди слов} {рассчитанная доля} {отношение реальной доли к рассчитанной}
см. пример(лучше смотреть через far)
Опции -mincount {integer>0} позволяет отсеять слова, встречающиеся ниже некоторого порога. Других дополнительных возможностей у wordcount нет -infile {имя файла, полученного с помощью compseq} устанавливает теоретическую распространённость слова равной подсчитанной уже распространённостью в другом наборе последовательностей
-frame {номер рамки} позволяет считать слова только в одной рамке. С помощью этой опции можно, например, подсчитать количество кодонов в открытой рамке считывания -reverse в случае нуклеиновых кислот позволяет искать не только само слово, но и комплементарное ему. -calcfreq. обычно считается, что все слова равновероятны. Использование calcfreq позволяет оценку уточнить: вероятность слова рассчитывается с учётом распространённости аминокислот/нуклеотидов -nozero уменьшает объём выводного файла, не добавляя в него не встретившиеся слова
Вывод wordcount полезен при составлении рейтингов наиболее популярных слов. Эта команда проста и прямолинейна а полученные файлы легче обработать, поэтому в данном практикуме она была более полезна compseq имеет больший потенциал, с его помощью можно сравнивать как популярности слов внутри белка, так и встречаемость одного слова в разных последовательностях. В общем случае compseq может заменить wordcount, но в данном практикуме его возможности были избыточны.
Скачать скрипт Python
Необработанные данные об аминокислотном составе протеомов E.coli и D. aromatica

EMBOSS позволяет совершать полезные действия с протеомами, в частности, определять их аминокислотный состав и сравнивать их.