"Нет, эгоизм вот в чем: требовать от другого терпеть невыносимое существование лишь затем, чтобы тот избавил своих родственников, друзей и врагов от толики самокопания."

Дэвид Митчелл, Облачный атлас, письма из Зедельгема.

Добро пожаловать!

Анализ протеома бактерий

В процессе выполнения данного практикума с помощью команд bash были проанализированы протеомы двух бактерий: A.missouriensis и E. Coli. Было подсчитано общее количество белков и частоты встречаемости аминокислот в их белках.

Организм A.missouriensis E.Coli
Идентификатор протеома UP000007882 UP000000625
Число белков 8113 4352
Общее число аминокислот 2638011 1353357

Затем, также с помощью команд bash и пакета EMBOSS, были получены данные о количестве различных аминокислот в протеомах двух бактерий. Затем был написан скрипт на python, с помощью которого были высчитаны проценты встречаемости аминокислот и составлена html-таблица, в которой они расположены по убыванию частоты встречаемости.

Проценты встречаемости аминокислот в протеомах
Остаток Процент данного остатка у A.missouriensis Процент данного остатка у E.Coli Разница процентов
A 13.932 9.507 4.425
L 10.312 10.676 0.364
G 9.26 7.366 1.894
V 8.65 7.07 1.58
R 7.894 5.52 2.374
T 6.242 5.395 0.847
P 6.012 4.429 1.583
D 5.96 5.147 0.813
E 5.234 5.762 0.528
S 5.15 5.799 0.649
I 3.744 6.011 2.267
F 2.789 3.894 1.105
Q 2.768 4.443 1.675
H 2.081 2.269 0.188
Y 2.048 2.845 0.797
K 1.953 4.407 2.454
N 1.93 3.938 2.008
M 1.775 2.825 1.05
W 1.574 1.532 0.042
C 0.692 1.162 0.47

Скачать скрипт

Команда для запуска: python3.6 code.py aminoacids_Coli.txt aminoacids_Actnoplates.txt

Три наиболее частые аминокислоты одинаковы среди обеих бактерий: это аланин, лейцин и глицин. Но вместе с тем частоты их встречаемости данных аминокислот, а именно аланина и глицина, отличаются достаточно сильно: на 4.42 процента для аланина (у кишечной палочки по частоте встречаемости это вторая аминокислота). Частоты встречаемости глицина отличаются на 1.89% в пользу актиномицета. Вместе с тем, лейцин в протеоме актиномицена встречается несколько реже, чем в кишечной палочке (на 0.36 процента).

Две самые редкие редкие аминокислоты среди двух бактерий одинаковы: это цистеин и триптофан. Третья аминокислота отличается: для актиномицета это метионин, а для кишечной палочки — гистидин. Частоты встречаемости для триптофана отличаются всего лишь на 0.05%, а для метионина — 0.47%.

Наиболее сильно различающиеся по встречаемости остатки: аланин (4.42% в пользу актиномицета), лизин (2.45% в пользу кишечной палочки) и изолейцин (2.26% в пользу кишечной палочки).

Compseq

Также, как и wordcount, программа позволяет подсчитать количество вхождений уникальных строк заданной длины. В отличие от wordcount команда будет считать все вхождения уникальных строк, в том числе и в идентификаторах. Программа compseq работает несколько быстрее wordcount.
Синтаксис команды похож на синтаксис wordcount: в качестве обязательных параметров задается название считываемого файла (или его идентификатор), длина подсчитываемых слов и название выходного файла. Для команды существует множество дополнительных опций, позволяющих тонко настраивать программу под свои нужды.

Опции compseq

-zerocount: позволяет не выводить в файл строки с нулевыми значениями
-reverse: позволяет посчитать вхождения и в комплементарной цепи сиквенса
-ignorebz: позволяет не считать слова, содержащие коды аминокислот
-sreverse_sequence: позволяет искать вхождения в комплементарной цепи
-frame: позволяет задать рамку считывания
-calcfreq: позволяет рассчитать частоту встречаемости вхождений

Вывод compseq

Программа, в отличии от wordcount, выводит вхождения не по убыванию, а по алфавиту, что может быть удобным для статистичесих исследований. Программа выводит в файл намного больше информации. Например, в начале выходного файла будет помещаться информация о размере слов поиска и их общем числе. Также программа записывает в колонки ожидаемый и наблюдаемый процент встречаемости тех или иных слов, также и отношение наблюдаемой частоты к предполагаемой. В конце файла помещается число вхождений в группу other (можно задать с помощью опций).
Эта дополнительная информация будет особо полезна для массивных статистических исследований. Программа compseq, по моему мнению, является более подходящей для таких исследований, так как не требует впоследствии отдельного подсчета частот с помощью другого софта.

Для задания, аналогичного заданию данного практикума, я бы выбрала программу compseq, потому что в ней уже посчитаты частоты встречаемости слов-вхождений, да и она является более быстрой. Для заданий большего объема я бы тоже выбрала именно ее.