Для сравнения были выбраны два протеома: первый - протеом бактерии Xanthomonas cucurbitae, которая была моим объектом в прошлых практикумах этого семестра, а второй - протеом бактерии Xanthomonas campestris, её родственника. Обе бактерии относятся к одному роду и являются паразитами растений, при этом Xanthomonas cucurbitae поражает растения семейства Тыквенные, а Xanthomonas campestris - растения семейства Крестоцветные. Протеом X. campestris имеет идентификатор UP000000420 в базе Uniprot и является стандартным, а для X. cucurbitae стандартных протеомов в базе найдено не было, поэтому был использован протеом UP000239561, наиболее близкий к стандартному.
Количество белков в протеоме X. campestris составляет 4239, в протеоме X. cucurbitae - 3583. По данным BUSCO, оба протеома довольно достоверны: у каждой из бактерий превалируют одиночные последовательности (96-97%), а количество последовательностей, попадающих в "missing", довольно низко (0,3%).
Исследуемые протеомы далее сравнили по представленности белков трех групп - трансмембранных, ферментов и факторов вирулентности (последний критерий сравнения был выбран, так как исследуемые бактерии являюося патогенными).
Для подсчета числа трансмембранных белков были использованы следующие программы: zgrep '^KW' UP000239561.swiss.gz |grep 'Transmembrane'|wc -l (для X. cucurbitae, было найдено 1524 таких белков) и zgrep '^KW' UP000000420.swiss.gz |grep 'Transmembrane'|wc -l (для X. campestris, было найдено 1817 таких белков).
Для подсчета числа белков-ферментов были использованы следующие программы: zgrep '^DE' UP000239561.swiss.gz |grep 'RecName: Full='|grep -i '[a-z]ase'|wc -l (для X. cucurbitae, было найдено 1041 таких белков) и zgrep '^DE' UP000000420.swiss.gz |grep 'RecName: Full='|grep -i '[a-z]ase'|wc -l (для X. campestris, было найдено 1283 таких белков).
Для подсчета числа белков-ферментов были использованы следующие программы: zgrep '^KW' UP000239561.swiss.gz |grep 'Virulence'|wc -l (для X. cucurbitae, было найдено 5 таких белков) и zgrep '^KW' UP000000420.swiss.gz |grep 'Virulence'|wc -l (для X. campestris, было найдено 10 таких белков).
Обычно первой аминокислотой в белках является метионин, но на его месте могут быть и другие аминокислоты. В этой части практикума было подсчитано количество каждой из аминокислот, которая может выступать в белках X. cucurbitae и X. campestris на первом месте. Для этого были использованы следующие программы: zcat UP000239561.swiss.gz | seqret -filter 'swiss::stdin:*[1:1]' | grep -v '>' | sort | uniq -c (для X. cucurbitae) и zcat UP000000420.swiss.gz | seqret -filter 'swiss::stdin:*[1:1]' | grep -v '>' | sort | uniq -c (для X. campestris).
Было обнаружено, что у X. campestris все аминокислоты в белках начинаются с метионина (4239 M), а у X. cucurbitae первой аминокислотой часто выступает не метионин (7А, 3D, 2E, 3F, 5G, 1I, 5K, 5L, 3533M, 1N, 3P, 5R, 5T, 1V, 1W, 3Y).