Работа с EMBOSS.
EMBOSS - комплект программ, запускаемых через командную строку linux, позволяющий анализировать протеомы. Данный практикум посвящён ознакомлению с EMBOSS.
Первая таблица содержит общую информацию о протеомах Escherichia coli и Dechloromonas aromatica.
Организм | Идентификатор протеома | Количество последовательностей в протеоме | Общее число аминокислот |
E. coli | UP000000625 | 4352 | 1353357 |
D. aromatica | UP000000550 | 4155 | 1366941 |
Протеом E.coli немного больше протеома D. aromatica, у Dechloromonas немного больше в среднем белки, но эти отличия не слишком велики и мало о чём говорят.
В приведённой ниже таблице продемонстрированы результаты работы с командой wordcount.
Аминокислотный остаток | Содержание в E. coli | Содержание в D. aromatica | Различие |
A | 9.51% | 11.47% | -1.96% |
L | 10.68% | 10.83% | -0.15% |
G | 7.37% | 7.99% | -0.62% |
V | 7.07% | 7.09% | -0.02% |
R | 5.52% | 6.32% | -0.80% |
E | 5.76% | 5.99% | -0.22% |
S | 5.80% | 5.64% | 0.16% |
I | 6.01% | 5.35% | 0.67% |
D | 5.15% | 5.30% | -0.15% |
T | 5.39% | 5.05% | 0.34% |
P | 4.43% | 4.84% | -0.41% |
K | 4.41% | 4.09% | 0.31% |
Q | 4.44% | 3.77% | 0.68% |
F | 3.89% | 3.76% | 0.13% |
N | 3.94% | 3.09% | 0.84% |
M | 2.83% | 2.50% | 0.32% |
Y | 2.84% | 2.35% | 0.49% |
H | 2.27% | 2.19% | 0.08% |
W | 1.53% | 1.36% | 0.17% |
C | 1.16% | 1.03% | 0.13% |
В общем распространённость различных аминокислот у этих двух бактерий довольно близка,
однако есть и различия.
Распространённость A на целых 1.96% выше у D. aromatica. Наибольшее различие в пользу E.coli в доле
аспаргина, которого у неё на 0.84% больше.
Объяснить такие различия тяжело, вероятно, они появились в результате большей частью случайных процессов.
Тройки наиболее и наименее распространённых аминокислот одинаковы в обоих протеомах:
Лейцин, аланин и глицин чаще всего встречаются в D. aromatica, в E. coli Ala обгоняет Leu.
Эти аминокислоты гидрофобные алифатические, они образуют гидрофобные каналы и гидрофобные связи,
в общем составляют основу белка.
Самые редкие аминокислоты в обеих бактериях - H, W, C.
Эти аминокислоты обычно встречаются в активных центрах(гистидин может участвовать в образовании солевых мостиков)
Редкость цистеина может объясняться его особыми свойствами и функциями: он является сильным восстановителем, что
делает его присутствие на поверхности белка крайне нежелательным, так как при его случайном окислении может нарушиться
структура и функциональная активность белка, например, вследствие образования нежелательного дисульфидного мостика.
В общем, E. coli и D. aromatica - довольно дальние родственники, поэтому неудивительны различия в распределении популярностей аминокислот. С другой стороны,
у многих аминокислот есть обычно свойственная им функция, всвязи с чем списки наиболее и наименее популярных остатков даже у дальнеродственных организмов схожи.
В таблице ниже приведено сравнение команд wordcount и compseq. Обе команды подсчитывают частоту встречаемости слов, однако имеют свои особенности и используются в разных случаях
Характеристика | Особенность wordcount | Особенность compseq |
Формат входного файла | Файлы fasta и другие форматы, содежащие последовательности | |
Формат выводного файла | В порядке уменьшения распространённости слова в виде двух столбиков: {слово} {число встреч}см. пример(лучше смотеть через far) |
В начале файла описаны особенности получения файла: команда compseq, способ подсчёта вероятностей и названия последовательностей, найденных в исходном файле
Затем в двух строках указаны размер встретившегося слова и общее количество таких слов в последовательности(ях) В оставшихся строках находится описание частотности всех возможных слов в алфавитном порядке в формате 5 столбцов: {слово} {число встреч} {доля среди слов} {рассчитанная доля} {отношение реальной доли к рассчитанной} см. пример(лучше смотреть через far) |
Опции | -mincount {integer>0} позволяет отсеять слова, встречающиеся ниже некоторого порога. Других дополнительных возможностей у wordcount нет | -infile {имя файла, полученного с помощью compseq} устанавливает теоретическую распространённость слова
равной подсчитанной уже распространённостью в другом наборе последовательностей -frame {номер рамки} позволяет считать слова только в одной рамке. С помощью этой опции можно, например, подсчитать количество кодонов в открытой рамке считывания -reverse в случае нуклеиновых кислот позволяет искать не только само слово, но и комплементарное ему. -calcfreq. обычно считается, что все слова равновероятны. Использование calcfreq позволяет оценку уточнить: вероятность слова рассчитывается с учётом распространённости аминокислот/нуклеотидов -nozero уменьшает объём выводного файла, не добавляя в него не встретившиеся слова |
Вывод | wordcount полезен при составлении рейтингов наиболее популярных слов. Эта команда проста и прямолинейна а полученные файлы легче обработать, поэтому в данном практикуме она была более полезна | compseq имеет больший потенциал, с его помощью можно сравнивать как популярности слов внутри белка, так и встречаемость одного слова в разных последовательностях. В общем случае compseq может заменить wordcount, но в данном практикуме его возможности были избыточны. |
Необработанные данные об аминокислотном составе протеомов E.coli и D. aromatica
EMBOSS позволяет совершать полезные действия с протеомами, в частности, определять их аминокислотный состав и сравнивать их.