Практикум 7. EMBOSS и протеомы

Получение протеомов Bacteroides fragilis NCTC 9343 (BACFN) и Escherichia coli K12 (ECOLI) из Uniprot

Таблица 1. Информация по протеомам
Организм Bacteroides fragilis NCTC 9343 Escherichia coli K12
Идентификаторы протеомов UP000006731 UP000000625
Число последовательностей 4234 4352
Число аминокислот 1537139 1353365

Видно, что у ECOLI несколько меньше аминокислот, но какие-либо вывоодны сделать сложно. Оба протеома являются референсными.

Ссылки на скачивание: протеом ECOLI [1], протеом BACFN [2], скрипт 1, с помощью которого была получена таблица 1 (выше), скрипт 2 , с помощью которого была получена таблица 2 (ниже). Команда запуска скрипта 1 из директории tirena/public_html/term2: python 3.6 table_1.py, вывод информации в файл table_1.txt. Скрипта 2: python 3.6 table_2.py, вывод информации в виде готовой html-таблицы в файл table_2.html. Необходимые для работы файлы (ECOLI.fasta и BACFN.fasta) находятся в той же папке, что и сами скрипты.

Таблица 2. Процентное содержание аминокислот
Аминокислота BACFN % встречаемости ECOLI % встречаемости Разница в %
A 6.887 9.507 -2.620
R 4.719 5.520 -0.802
N 5.047 3.938 1.109
D 5.408 5.147 0.261
C 1.231 1.162 0.069
E 6.510 5.762 0.748
Q 3.446 4.443 -0.996
G 6.864 7.366 -0.502
H 1.830 2.269 -0.439
I 6.999 6.011 0.987
L 9.279 10.676 -1.397
K 6.622 4.407 2.215
M 2.720 2.825 -0.106
F 4.632 3.894 0.737
P 3.793 4.429 -0.636
S 6.172 5.799 0.372
T 5.610 5.394 0.216
W 1.264 1.532 -0.268
Y 4.490 2.845 1.645
V 6.479 7.070 -0.592
U 0.000 0.000 -0.000
B 0.000 0.000 0.000
Z 0.000 0.000 0.000
X 0.000 0.001 -0.001

Исследуемые Bacteroides fragilis NCTC 9343 (BACFN) и Escherichia coli K12 (ECOLI) - грамотрицательные условно патогенные бактерии, некоторые штаммы которых обитают в кишечнике человека в качестве эндосимбионтов. При этом бактероид Bacteroides - обязательный анаэроб, а протеобактерия Escherichia - факультативный.

Как видно из таблицы 2, наиболее часто у обоих бактерий встречается лейцин (9.279% и 10.676% у BACFN и ECOLI соответственно). Другие часто встречаемые аминокислоты у ECOLI - аланин (9.507%), затем глицин (7.366%), валин (7.07%) и изолейцин (6.011%), а у BACFN - изолейцин (6.999%), аланин (6.887%), глицин (6.864%) и лизин (6.622%). Реже всего у обоих бактерий встречались цистеин (1.231% у BACFN и 1.162 у ECOLI), триптофан (1.264% и 1.532% соответственно) и гистидин (1.83% и 2.269% соответственно). Наибольшее различие по частоте встречаемости наблюдается у аланина (на 2.62% чаще у ECOLI) и лизина (на 2.215% чаще у BACFN). Кроме того, у ECOLI есть 3 остатка селеноцистеина (U) и 8 неопределённых остатков (X), в отличие от BACFN.

Сравнение команд wordcount и compseq в EMBOSS

wordcount - команда с синтаксисом wordcount -sequence seqall -wordsize integer [-mincount integer] -outfile outfile, подсчитывающая число уникальных слов размера wordsize, встречаемых как минимум mincount раз (опционально, по умолчанию 0) в последовательности seqall (файл с последовательностью или USA) и выводящяя результат в текстовый файл outfile.


compseq - команда с синтаксисом compseq -sequence seqall [-infile infile] -word integer [-frame integer] -ignorebz boolean -reverse boolean [-calcfreq boolean] -outfile outfile [-zerocount boolean], которая в самом простом случае подсчитывает число и частоту встречаемости уникальных слов размера word в последовательности seqall (файл с последовательностью или USA) и выводит эти результаты, а также соотношение наблюдаемой частоты и ожидаемой (подробнее далее), в текстовый файл outfile.

По умолчанию ожидаемые частоты рассчитаны из предположения, что все слова встречаются одинаково часто. Необязательные опции:


Я бы использовала для задачи, аналогичной выполненному практикуму, команду compseq, так как она выдаёт частоты встречаемости аминокислот в протеоме, а wordcount - только их число.

Ссылки на источники

  1. uniprot.org/proteomes/UP000000625 – протеом Escherichia coli K12 (ECOLI) в Uniprot.
  2. uniprot.org/proteomes/UP000006731 – протеом Bacteroides fragilis NCTC 9343 (BACFN) в Uniprot.