Практикум 8
В рамках этого практикума я проводил сравнение протеомов Rhodococcus fascians и Rhodococcus erythropolis.
Выбор протеомов
Продолжая тему обзора грамположительного актиномицета Rhodococcus fascians, я выбрал для исследования нереференсный протеом UP000076074. Мотивация этого выбора состояла в следующем: из 49 доступных по приведённому ниже запросу протеомов неизбыточными являлись только 3, и только для одного из них в графе "components" было указано наличие белков с плазмиды PFiD188. Эта плазмида обуславливает фитопатогенность нашего родококка, и по этой причине рассматривать протеомы, не включающие её гены, неинтересно.
Запрос для поиска на UniProt:
(taxonomy_id:1828)
Скачивание через API в текущую директорию:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000076074)' -O UP000076074.swiss.gz
В качестве контрольного был выбран протеом Rhodococcus erythropolis - достаточно близкий для исследуемой патогенной бактерии непатогенный "родственник" (непатогенность объясняется отстутствием плазмиды pFiD188, исполняющей ключвую роль в инфицировании растений R. fascians). Кроме того, R. erythropolis> интересен своей способностью метаболизировать трудноразлагаемые субстраты. Референсный протеом UP000002204 лидирует по BUSCO, 206 из 6424 его белков находятся в Swiss-Prot. Видно, что этот протеом изучен подробнее, однако ему также посвящено всего 2 публикации.
Аналогичный поисковый запрос:
(taxonomy_id:1833)
Скачивание:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000002204)' -O UP000002204.swiss.gz
Анализ количества некоторых групп белков
Для рассчёта были написаны python-скрипты, необходимые ссылки будут даны в соответствующих абзацах.
Количество ферментов
Для этого скрипта определение фермента выглядит так: "Фермент - запись об одном белке, содержащая Enzyme Comission number (EC)". Исходя из этого определения, количество ферментов у исследуемой бактерии - 1951:
a.k.rybakov@kodomo:~/term2/test8$ a.k.rybakov@kodomo:~/term2/test8$ ./enzymecount.py
Enter path to your file.
UP000076074.swiss
1951
А у референсной бактерии - 1612:
a.k.rybakov@kodomo:~/term2/test8$ ./enzymecount.py
Enter path to your file.
UP000002204.swiss
1612
Мембранные белки
В терминах данного скрипта мембранным называется белок, в записи которого присутствует строка, начинающася с 'KW' и содержащая 'Transmembrane'. Скрипт находит 1076 таких записей в протеоме исследуемой бактерии и 1287 - у контрольной.
a.k.rybakov@kodomo:~/term2/test8$ ./transmemcount.py
Enter path to your file.
UP000076074.swiss
1076
a.k.rybakov@kodomo:~/term2/test8$ ./transmemcount.py
Enter path to your file.
UP000002204.swiss
1287
Любопытно, что при замене 'Transmembrane' на 'Cell membrane', тоже принятое в аннотациях слово, белков находится в 5 раз меньше: R. fascians "имеет" 237 мембранных белков, R. erythropolis - 261, хотя их должно быть наоборот больше:
a.k.rybakov@kodomo:~/term2/test8$ ./transmemcount.py
Enter path to your file.
UP000076074.swiss
237
a.k.rybakov@kodomo:~/term2/test8$ ./transmemcount.py
Enter path to your file.
UP000002204.swiss
261
Вероятно, причина кроется в том, что это ключевое слово добавляется к записям только на основании ECO:0000256, проверяем это командами:
grep 'KW' UP000076074.swiss | grep 'Cell membrane'
grep 'KW' UP000002204.swiss | grep 'Cell membrane'
Белки локуса fas
Как было ранее описано в моём обзоре, ключевую роль в патогенности R. fascians исполняют белки оперона fas той самой плазмиды PFiD188.
Логично было бы обнаружить все белки данного оперона у R.fascians и не обнаружить их у R. erythropolis. Применив к файлам с протеомами скрипт, выводящий строки, начинающиеся с 'GN Name=fas' и считающий их количество, получаем:
a.k.rybakov@kodomo:~/term2/test8$ ./fascount.py
Enter path to your file.
UP000076074.swiss
GN Name=fas4 {ECO:0000313|EMBL:AMY56243.1};
GN Name=fas6 {ECO:0000313|EMBL:AMY56245.1};
GN Name=fas3_1 {ECO:0000313|EMBL:AMY53060.1};
GN Name=fas2_1 {ECO:0000313|EMBL:AMY53061.1};
GN Name=fas2_2 {ECO:0000313|EMBL:AMY56241.1};
GN Name=fas5 {ECO:0000313|EMBL:AMY56244.1};
GN Name=fas1 {ECO:0000313|EMBL:AMY56240.1};
GN Name=fas3_2 {ECO:0000313|EMBL:AMY56242.1};
8
a.k.rybakov@kodomo:~/term2/test8$ ./fascount.py
Enter path to your file.
UP000002204.swiss
GN Name=fas1 {ECO:0000313|EMBL:BAH34581.1};
1
Полученные результаты вполне ожидаемы, ведь R. erythropolis не имеет плазмиды вирулентности. С тем же любопытно, что всё-таки один из белков нашего оперона у "контрольной" бактерии обнаружился - цитохром P450. Однако особого доверия эта запись не внушает: аннотированность в 1/5 и длина в 3100 аминокислот. Выясняется это по следующему запросу к UniProtKB:
(gene:fas1) AND (proteome:UP000002204)
Оценка качества протеома на основании ECO-аннотаций
Последний из сегодняшних скриптов считал количество и долю различных ECO-аннотаций по всему протеому в целом как меру качества его аннотации. Результаты следующие:
a.k.rybakov@kodomo:~/term2/test8$ ./ecoco.py
Enter path to your file.
UP000076074.swiss
ECO:0000256 3586 0.38311965811965815 #automatic
ECO:0000259 636 0.06794871794871794 #automatic
ECO:0000313 5138 0.548931623931624 #automatic
a.k.rybakov@kodomo:~/term2/test8$ ./ecoco.py
Enter path to your file.
UP000002204.swiss
ECO:0000250 5 0.0004329004329004329 #manual
ECO:0000255 202 0.01748917748917749 #manual
ECO:0000256 4303 0.3725541125541125 #automatic
ECO:0000259 812 0.0703030303030303 #automatic
ECO:0000269 3 0.00025974025974025974 #manual
ECO:0000303 2 0.00017316017316017316 #manual
ECO:0000305 4 0.0003463203463203463 #manual
ECO:0000312 1 8.658008658008658e-05 #manual
ECO:0000313 6218 0.5383549783549784 #automatic
Интерпретация результатов: в нашем случае оценка с помощью ECO похожа на рассуждения про Swiss-Prot и Trembl, поскольку нахождение в этих БД определяется тем, была проверка ручной или автоматической (указано справа от каждого ECO после хештега). Мы видим, что обработка протеома R. erythropolis была не полностью автоматической, однако доля записей, обработанных "руками", мала.
Я думаю, что гораздо интереснее использовать подобный метод оценки для протеомов, в которых много белков из Swiss-prot с разными экспериментальными доказательствами, поскольку их, в этом случае, можнло было бы ранжирвоать по доверию (например, меньше доверять менее "чувствительным" методам и т. д.).