Практикум 8

В рамках этого практикума я проводил сравнение протеомов Rhodococcus fascians и Rhodococcus erythropolis.

Выбор протеомов

Продолжая тему обзора грамположительного актиномицета Rhodococcus fascians, я выбрал для исследования нереференсный протеом UP000076074. Мотивация этого выбора состояла в следующем: из 49 доступных по приведённому ниже запросу протеомов неизбыточными являлись только 3, и только для одного из них в графе "components" было указано наличие белков с плазмиды PFiD188. Эта плазмида обуславливает фитопатогенность нашего родококка, и по этой причине рассматривать протеомы, не включающие её гены, неинтересно.

Запрос для поиска на UniProt:


(taxonomy_id:1828)
            

Скачивание через API в текущую директорию:


wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000076074)' -O UP000076074.swiss.gz
            

В качестве контрольного был выбран протеом Rhodococcus erythropolis - достаточно близкий для исследуемой патогенной бактерии непатогенный "родственник" (непатогенность объясняется отстутствием плазмиды pFiD188, исполняющей ключвую роль в инфицировании растений R. fascians). Кроме того, R. erythropolis> интересен своей способностью метаболизировать трудноразлагаемые субстраты. Референсный протеом UP000002204 лидирует по BUSCO, 206 из 6424 его белков находятся в Swiss-Prot. Видно, что этот протеом изучен подробнее, однако ему также посвящено всего 2 публикации.

Аналогичный поисковый запрос:


(taxonomy_id:1833)
        

Скачивание:


wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000002204)' -O UP000002204.swiss.gz
            

Анализ количества некоторых групп белков

Для рассчёта были написаны python-скрипты, необходимые ссылки будут даны в соответствующих абзацах.

Количество ферментов

Для этого скрипта определение фермента выглядит так: "Фермент - запись об одном белке, содержащая Enzyme Comission number (EC)". Исходя из этого определения, количество ферментов у исследуемой бактерии - 1951:


a.k.rybakov@kodomo:~/term2/test8$ a.k.rybakov@kodomo:~/term2/test8$ ./enzymecount.py
Enter path to your file.
UP000076074.swiss
1951
            
А у референсной бактерии - 1612:
                
a.k.rybakov@kodomo:~/term2/test8$ ./enzymecount.py
Enter path to your file.
UP000002204.swiss
1612
                
            
Мембранные белки
В терминах данного скрипта мембранным называется белок, в записи которого присутствует строка, начинающася с 'KW' и содержащая 'Transmembrane'. Скрипт находит 1076 таких записей в протеоме исследуемой бактерии и 1287 - у контрольной.
                
a.k.rybakov@kodomo:~/term2/test8$ ./transmemcount.py
Enter path to your file.
UP000076074.swiss
1076
a.k.rybakov@kodomo:~/term2/test8$ ./transmemcount.py
Enter path to your file.
UP000002204.swiss
1287
                
            

Любопытно, что при замене 'Transmembrane' на 'Cell membrane', тоже принятое в аннотациях слово, белков находится в 5 раз меньше: R. fascians "имеет" 237 мембранных белков, R. erythropolis - 261, хотя их должно быть наоборот больше:

                
a.k.rybakov@kodomo:~/term2/test8$ ./transmemcount.py
Enter path to your file.
UP000076074.swiss
237
a.k.rybakov@kodomo:~/term2/test8$ ./transmemcount.py
Enter path to your file.
UP000002204.swiss
261
                
            

Вероятно, причина кроется в том, что это ключевое слово добавляется к записям только на основании ECO:0000256, проверяем это командами:


grep 'KW' UP000076074.swiss | grep 'Cell membrane'
grep 'KW' UP000002204.swiss | grep 'Cell membrane'
        

Белки локуса fas

Как было ранее описано в моём обзоре, ключевую роль в патогенности R. fascians исполняют белки оперона fas той самой плазмиды PFiD188.

Рис. 1. "Островок патогенности". Источник: Pertry I. et al. Rhodococcus fascians impacts plant development through the dynamic fas-mediated production of a cytokinin mix //Molecular Plant-Microbe Interactions. – 2010. – Т. 23. – №. 9. – С. 1164-1174.
На рис. 1 представлена схема расположения fas-генов в опероне. ORF-1 являет собой цитохром P450, ORF2 и ORF3 соответствуют смоделированному в рамках обзора гипотетическому пируватдегидрогеназному комплексу (ПДГ), ORF4 - изопентинилтрансферазе, участвующей в синтезе бактериальных цитокининов из AMP и изопентинил-дифосфата, ORF5 отвечает цитокинин-оксидазе, ORF-6 - лизин-дегидрогеназе.

Логично было бы обнаружить все белки данного оперона у R.fascians и не обнаружить их у R. erythropolis. Применив к файлам с протеомами скрипт, выводящий строки, начинающиеся с 'GN Name=fas' и считающий их количество, получаем:

            
a.k.rybakov@kodomo:~/term2/test8$ ./fascount.py
Enter path to your file.
UP000076074.swiss
GN   Name=fas4 {ECO:0000313|EMBL:AMY56243.1};
GN   Name=fas6 {ECO:0000313|EMBL:AMY56245.1};
GN   Name=fas3_1 {ECO:0000313|EMBL:AMY53060.1};
GN   Name=fas2_1 {ECO:0000313|EMBL:AMY53061.1};
GN   Name=fas2_2 {ECO:0000313|EMBL:AMY56241.1};
GN   Name=fas5 {ECO:0000313|EMBL:AMY56244.1};
GN   Name=fas1 {ECO:0000313|EMBL:AMY56240.1};
GN   Name=fas3_2 {ECO:0000313|EMBL:AMY56242.1};
8
a.k.rybakov@kodomo:~/term2/test8$ ./fascount.py
Enter path to your file.
UP000002204.swiss
GN   Name=fas1 {ECO:0000313|EMBL:BAH34581.1};
1
            
                

Полученные результаты вполне ожидаемы, ведь R. erythropolis не имеет плазмиды вирулентности. С тем же любопытно, что всё-таки один из белков нашего оперона у "контрольной" бактерии обнаружился - цитохром P450. Однако особого доверия эта запись не внушает: аннотированность в 1/5 и длина в 3100 аминокислот. Выясняется это по следующему запросу к UniProtKB:

            
(gene:fas1) AND (proteome:UP000002204)
            
        

Оценка качества протеома на основании ECO-аннотаций

Последний из сегодняшних скриптов считал количество и долю различных ECO-аннотаций по всему протеому в целом как меру качества его аннотации. Результаты следующие:

            
a.k.rybakov@kodomo:~/term2/test8$ ./ecoco.py
Enter path to your file.
UP000076074.swiss
ECO:0000256   3586   0.38311965811965815 #automatic
ECO:0000259   636   0.06794871794871794 #automatic
ECO:0000313   5138   0.548931623931624 #automatic
a.k.rybakov@kodomo:~/term2/test8$ ./ecoco.py
Enter path to your file.
UP000002204.swiss
ECO:0000250   5   0.0004329004329004329 #manual
ECO:0000255   202   0.01748917748917749 #manual
ECO:0000256   4303   0.3725541125541125 #automatic
ECO:0000259   812   0.0703030303030303  #automatic
ECO:0000269   3   0.00025974025974025974 #manual
ECO:0000303   2   0.00017316017316017316 #manual
ECO:0000305   4   0.0003463203463203463 #manual
ECO:0000312   1   8.658008658008658e-05 #manual
ECO:0000313   6218   0.5383549783549784 #automatic
            
        

Интерпретация результатов: в нашем случае оценка с помощью ECO похожа на рассуждения про Swiss-Prot и Trembl, поскольку нахождение в этих БД определяется тем, была проверка ручной или автоматической (указано справа от каждого ECO после хештега). Мы видим, что обработка протеома R. erythropolis была не полностью автоматической, однако доля записей, обработанных "руками", мала.

Я думаю, что гораздо интереснее использовать подобный метод оценки для протеомов, в которых много белков из Swiss-prot с разными экспериментальными доказательствами, поскольку их, в этом случае, можнло было бы ранжирвоать по доверию (например, меньше доверять менее "чувствительным" методам и т. д.).