Информация взята из бд UniProt
Протеом Bacteroides thetaiotaomicron имеет ID UP000001414 и содержит в себе 4,782 белков. Для скачивания протеома использовалась команда
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=<Proteome ID>' -O <Proteome ID>.swiss.gzВ качестве второго протеома я выбрал Escherichia coli, так как эта бактерия является модельным организмом и, как следствие, хорошо изучена. Ее протеом имеет ID UP000000625 и содержит 4,403 белков. Оба протеома довольно хорошо изучены, так как на дупликации и фрагменты белков приходится менее 1 процента.
Трансмебранных белков 991 у E. coli и 935 у представителя рода Bacteroides. Разница не сильно большая, количество трансмебранных белков можно назвать сходством этих бактерий. Однако, количество ферментов (2189 у E. coli и 636 у B. thetatiotaomicron) у них довольно-таки отличается. Это можно объясним тем, что по E. coli имеется больше экспериментальных данных. С устойчивостью к антибиотикам обстоит такая же ситуация - 2 белка В. thetatiotaomicron против 68 у Е. coli. Интересно, что все белки обоих протеомов начинаются с метионина, хотя у данных бактерий встречаются нестандартные страт-кодоны.
Статистика встречаемости аминокислот на последней позиции белков находится в файле ~/term2/pr8/tr. Распределение а/к очень похожее: лизин находится на первом месте; глютамат и аргинин находятся в начале списка, метионин и цистеин в конце. Вообще, если в команде 4 менять номер аминокислоты, то результат почти не меняется. Получается, что это демонстрирует общее содержание аминокислот в белках.
Табл 1. BASH команды, использованные для сравнения
Команда | Количество белков | |
0 | zcat <filename> | grep -n '!' | grep 'CATALYTIC ACTIVITY' | wc -l | ферменты |
1 | zcat <filename> | grep '^KW' | grep -n 'Transmembrane [hb]' | wc -l | трансмембранные белки |
2 | zcat <filename> | grep '^KW' | grep -n 'Antibiotic resistance' | wc -l | белки устойчивости к антибиотикам |
3 | zcat <filename> | grep -A 1 '^SQ' | grep -n '^ M' | wc -l | на первой позиции стоит метионин |
4 | zcat <filename> | grep -B 1 '^//' | rev | cut -c -1 | rev | tr -d '/-' | sort -R | uniq -c | sort -gr | tail -n 20 | количество каждой аминокислоты в последней позиции последовательностей |