Получение протеомов Bacteroides fragilis NCTC 9343 (BACFN) и Escherichia coli K12 (ECOLI) из Uniprot
Таблица 1.
Информация по протеомам
Организм
Bacteroides fragilis NCTC 9343
Escherichia coli K12
Идентификаторы протеомов
UP000006731
UP000000625
Число последовательностей
4234
4352
Число аминокислот
1537139
1353365
Видно, что у ECOLI несколько меньше аминокислот, но какие-либо вывоодны сделать сложно. Оба протеома являются референсными.
Ссылки на скачивание: протеом ECOLI [1], протеом BACFN [2],
скрипт 1, с помощью которого была получена таблица 1 (выше), скрипт 2
, с помощью которого была получена таблица 2 (ниже). Команда запуска скрипта 1 из директории tirena/public_html/term2: python 3.6 table_1.py, вывод информации в файл
table_1.txt.
Скрипта 2: python 3.6 table_2.py, вывод информации в виде готовой html-таблицы в файл table_2.html.
Необходимые для работы файлы (ECOLI.fasta и BACFN.fasta) находятся в той же папке, что и сами скрипты.
Таблица 2.
Процентное содержание аминокислот
Аминокислота
BACFN % встречаемости
ECOLI % встречаемости
Разница в %
A
6.887
9.507
-2.620
R
4.719
5.520
-0.802
N
5.047
3.938
1.109
D
5.408
5.147
0.261
C
1.231
1.162
0.069
E
6.510
5.762
0.748
Q
3.446
4.443
-0.996
G
6.864
7.366
-0.502
H
1.830
2.269
-0.439
I
6.999
6.011
0.987
L
9.279
10.676
-1.397
K
6.622
4.407
2.215
M
2.720
2.825
-0.106
F
4.632
3.894
0.737
P
3.793
4.429
-0.636
S
6.172
5.799
0.372
T
5.610
5.394
0.216
W
1.264
1.532
-0.268
Y
4.490
2.845
1.645
V
6.479
7.070
-0.592
U
0.000
0.000
-0.000
B
0.000
0.000
0.000
Z
0.000
0.000
0.000
X
0.000
0.001
-0.001
Исследуемые Bacteroides fragilis NCTC 9343 (BACFN) и Escherichia coli K12 (ECOLI) - грамотрицательные условно патогенные бактерии, некоторые штаммы
которых обитают в кишечнике человека в качестве эндосимбионтов. При этом бактероид Bacteroides - обязательный анаэроб, а протеобактерия Escherichia - факультативный.
Как видно из таблицы 2, наиболее часто у обоих бактерий встречается лейцин (9.279% и 10.676% у BACFN и ECOLI соответственно). Другие часто встречаемые аминокислоты у ECOLI - аланин (9.507%), затем глицин (7.366%),
валин (7.07%) и изолейцин (6.011%), а у BACFN - изолейцин (6.999%), аланин (6.887%), глицин (6.864%) и лизин (6.622%). Реже всего у обоих бактерий встречались цистеин (1.231% у BACFN и 1.162 у ECOLI),
триптофан (1.264% и 1.532% соответственно) и гистидин (1.83% и 2.269% соответственно).
Наибольшее различие по частоте встречаемости наблюдается у аланина (на 2.62% чаще у ECOLI) и лизина (на 2.215% чаще у BACFN).
Кроме того, у ECOLI есть 3 остатка селеноцистеина (U) и 8 неопределённых остатков (X), в отличие от BACFN.
Сравнение команд wordcount и compseq в EMBOSS
wordcount - команда с синтаксисом wordcount -sequence seqall -wordsize integer [-mincount integer] -outfile outfile, подсчитывающая число уникальных
слов размера wordsize, встречаемых как минимум mincount раз (опционально, по умолчанию 0) в
последовательности seqall (файл с последовательностью или USA) и выводящяя результат в текстовый файл outfile.
compseq - команда с синтаксисом compseq -sequence seqall [-infile infile] -word integer [-frame integer] -ignorebz boolean -reverse boolean [-calcfreq boolean]
-outfile outfile [-zerocount boolean], которая в самом простом случае подсчитывает число и частоту встречаемости уникальных слов размера word в
последовательности seqall (файл с последовательностью или USA) и выводит эти результаты, а также соотношение наблюдаемой частоты и
ожидаемой (подробнее далее), в текстовый файл outfile.
По умолчанию ожидаемые частоты рассчитаны из предположения, что все слова встречаются одинаково часто.
Необязательные опции:
-infile - изпользовать наблюдаемые в указанном файле, уже созданном compseq, частоты в качестве ожидаемых.
-frame - рамка прочтения, число символов, на которое мы сдвигаем распознавание слов после каждого предыдущего
(например, можно каждый раз сдвигать рамку на длину слова, чтобы они не могли перекрываться): по умолчанию 1.
-ignorebz - не учитывать редко используемые символы B (аспартат/аспарагин) и
Z (глутамат/глутамин): по умолчанию Y.
-reverse - посчитать также слова в комплементарной цепи для ДНК: по умолчанию N.
-calcfreq - рассчитывать ожидаемые частоты слов из частоты встречаемости
соответствующих букв (например, если слово длины 1, то ожидаемые частоты при включённой опции окажутся равны наблюдаемым): по умолчанию N.
-zerocount - не выводить в файл (но учитывать в расчётах, где необходимо)
слова с нулевой встречаемостью: по умолчанию N.
Я бы использовала для задачи, аналогичной выполненному практикуму, команду compseq, так как она выдаёт частоты встречаемости аминокислот в протеоме, а wordcount
- только их число.