Практикум 8. UniProt Proteomes, EMBOSS, bash

Первым был выбран референсный протеом моей бактерии Methylocystis heyeri.

Идентификатор:UP000309061
количество белков:4,086
BUSCO:97%

В качестве близкого организма для сравнения протэомов я решила взять референсный протеом Methylocystis parvus

Индификатор протеома:UP000422569
Количество белков:4,128
BUSCO:96.7%

Эти бактерии являются представителями одного семейства Methylocystaceae. Их протеомы очень похожи(хромосома и 2 плазмиды), выбор был сделан исходя из описанного в обзоре факта, что 2 штама : Methylocystis parvus OBBP(T) и Methylocystis echinoides IMET 10491(T) образуют новую линию Methylocystis heyeri

Команды для скачивание протеомов:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=UP000309061' -O UP000309061.swiss.gz
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=UP000422569' -O UP000422569.swiss.gz

Сравнение протеомов

Протеом Общее количество белков Трансмембранные белки Ферменты Гидролаза
Methylocystis heyeri(UP000309061) 4,086 776(18,9%) 1217(29,7%) 285(28,4%)
Methylocystis parvus(UP000422569) 4,128 813 (19,6%) 1234 (29,9) 295(23,9%)

Таблица 1. Сравнение протеомов

Процентаж ферментов разных классов в протеоме

Протеом 1(Methylocystis heyeri): Оксиредуктаза - 193(15,8%), Трансфераза - 534(43,8%) , Гидролаза - 285(28,4%), Лиаза - 90(7,3%), Лигаза - 84(6,9%),Транслоказа - 31(2,5%)
Протеом 2(Methylocystis parvus): Оксиредуктаза - 194(15,7%), Трансфераза - 544(44.08%), Гидролаза - 295(23,9%), Лиаза - 83(6,7%), Лигаза - 88(7,1%),Транслоказа - 30(2,4%)

Значительное отличие имеет количество Гидролазы, что обосновывается функциями бактерий

Используемые конвееры для поиска ферментов для двух протеомов

(1)
zcat UP000309061.swiss.gz | grep 'Transmembrane {' | wc -l | less
zcat UP000309061.swiss.gz | grep 'Oxidoreductase {' | wc -l | less
zcat UP000309061.swiss.gz | grep 'Hydrolase {' | wc -l | less
zcat UP000309061.swiss.gz | grep 'Transferase {' | wc -l | less
zcat UP000309061.swiss.gz | grep 'Lyase {' | wc -l | less
zcat UP000309061.swiss.gz | grep 'Ligase {' | wc -l | less
zcat UP000309061.swiss.gz | grep 'Translocase {' | wc -l | less
(2)
zcat UP000422569.swiss.gz | grep 'Transmembrane {' | wc -l | less
zcat UP000422569.swiss.gz | grep 'Oxidoreductase {' | wc -l | less
zcat UP000422569.swiss.gz | grep 'Transferase {' | wc -l | less
zcat UP000422569.swiss.gz | grep 'Hydrolase {' | wc -l | less
zcat UP000422569.swiss.gz | grep 'Lyase {' | wc -l | less
zcat UP000422569.swiss.gz | grep 'Ligase {' | wc -l | less
zcat UP000422569.swiss.gz | grep 'Translocase {' | wc -l | less

3. Сравнение протеомов

Проверяем, правда ли, что первая аминокислота в каждом белке – метионин.

Команды:
zcat UP000309061.swiss | seqret -filter 'swiss::stdin:*[1:1]' | grep -v "^>" | uniq
zcat UP000422569.swiss | seqret -filter 'swiss::stdin:*[1:1]' | grep -v "^>" | uniq
После запуска программы удалось установить, что в обоих случаях все белки начинаются с метионина (М). Это связано с тем, что триплет AUG является стартовым кодоном и кодирует метионин(N-формилметионин).