Практикум 8

Выбор и скачивание протеомов

В качестве протеома, описывающего мою архею Methanocaldococcus lauensis, я взял протеом ее близкого родственника Methanococcus jannaschii. Идентификатор этого протеома UP000000805, число белков составляет 1787, все они есть в базе Swiss-Prot, параметр BUSCO достаточно высокий (C:98.2%, F:0.5%, M:1.4%), однако параметр CPD вызывает некоторые опасения (Unknown). Тем не менее я преподчел взять именно этот протеом, поскольку среди протеомов рода моей археи он единственный референсный, к тому же M. jannaschii является модельным объектом. У остальных протеомов ситуация с CPD и BUSCO аналогичная, однако число записей в Swiss-Prot у них крайне мало (близко к 0). Протеом был скачан командой: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000000805)' -O UP000000805.swiss.gz.

В качестве контрольного протеома я выбрал Escherichia coli (штамм K12). Идентификатор протеома UP000000625, число белков равно 4404, 4401 есть в базе данных Swiss-Prot, BUSCO хорошего качества (C:100%, F:0%, M:0%), CPD имеет среднее значение (Close to standard (low value)). Протеом был скачан командой: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000000625)' -O UP000000625.swiss.gz. Я решил выбрать именно этот организм, поскольку все близкие родственники моей археи вплоть до высоких таксонов являются тоже метаногенами, я не смог найти в их протеомах существенные отличия, к тому же большинство архей, родственных моей, имеют довольно некачественные аннотации и слабо изученные протеомы. E. coli же является модельным организмом, обладает сильно отличным от моей археи метаболизмом, белки выбранного мною штамма довольно хорошо аннотированны.

Сравнение протеомов по представленности определенных групп белков

Для того чтобы оценить долю трансмембранных белков, я использовал следующий запрос в базе данных UniProtKB: (proteome:UP000000805) AND (keyword:KW-0812) (для археи, для бактерии аналогично, только идентификатор протеома другой). Результаты: для археи число белков составило 294 (доля примерно 16.5%), для бактерии – 994 (22.6%). Можно предположить, что такая сильная разница связана, во-первых, с тем, что у бактерии сложнее устроены клеточные покровы (две мембраны) и в связи с чем более сложная мембранная система белков, во-вторых, бактерия интенсивнее взаимодействует с внешней средой (транспортирует большое разнообразие частиц, реагирует на большое число сигналов).

Для того чтобы оценить долю белков-ферментов, я использовал следующий запрос в базе данных UniProtKB: (proteome:UP000000805) AND ((ec:1.) OR (ec:2.) OR (ec:3.) OR (ec:4.) OR (ec:5.) OR (ec:6.) OR (ec:7.)) (для археи, для бактерии аналогично, только идентификатор протеома другой). Результаты: для археи число белков составило 590 (доля примерно 33.0%), для бактерии – 1708 (38.8%). На основании этих результатов можно утверждать, что метаболизм бактерии устроен сложнее, большое число ферментов и соответственно биохимических путей и реакций.

В качестве последней функциональной группы я выбрал белки, которые так или иначе связываются с металлами (поскольку существенное отличие двух выбранных мною протеомов заключается в разном метаболизме двух организмов, металлы имеют крайне важное значение для биохимических процессов внутри живых объектов). Был использован запрос: (proteome:UP000000805) AND (keyword:KW-0479) (для археи, для бактерии аналогично, только идентификатор протеома другой). Результаты: для археи число белков составило 312 (доля примерно 17.5%), для бактерии 696 (15.8%). Доли таких белков оказались примерно схожими, по всей видимости, металлы играют в той или иной степени одинаковую по значимости роль в метаболизмах обоих организмов (также стоит отметить, что у обоих объектов встречаются довольно редкие металлы).

Суммируя все выше сказанное, можно сказать, что метаболизм археи более однообразный и узкоспецифичный по сравнению с таковым у бактерии, однако несмотря на это им обоим требуются специальные частицы для эффективной работы (в частности такие редкие металлы, как Молибден и даже Вольфрам). Еще отмечу, что несмотря на свою референсность большая часть белков археи (особенно те 70%, что не попали под определение трансмембранных и ферментов) имеют довольно низкий уровень аннотации (1 или 2 очка) и слабый уровень достоверности существования (3 или 4), поэтому не стоит исключать тот факт, что если белки будут исследованы тщательнее, то общие рассуждения могут поменяться.

Сравнение протеомов по самым часто встречающимся ключевым словам

В заключение я хотел посмотреть на наиболее частотные ключевые слова в двух анализируемых протеомах (я ототбрал минимум 10, однако если слова совпадали по количеству и попадали в топ 10, то я их тоже включал, в таком случае слов окажется больше 10). Для этого был использован сценарий на языке Python. Результаты оказались следующими (Таб. 1):

Табл. 1. Самые частотные ключевые слова (слева для бактерии, справа для археи).

Данный анализ потверждает выводы, сделанные в предыдущем пункте, а именно, что у бактерии лучше развита мембранная система белков (что связано со сложностью самой мембранной системы, часто втсречаются слова 'Cell membrane', 'Cell inner membrane', 'Membrane', 'Transport'), у бактерии белки хорошо изучены и аннотированны (частотны слова '3D-structure' и 'Direct protein sequencing'), у археи же метаболизм более своеобразный ('ATP-binding', 'Nucleotide-binding', 'Transferase'), в то же время слово 'Metal-binding' частотно у обоих.