Практикум 8. UniProt Proteomes, EMBOSS, bash

Выбор и скачивание протеомов

В данном практикуме протеом археи Halobacterium salinarum будет сравниваться с протеомом родственной археи Thermococcus kodakarensis. Выбор организма для сравнения обусловлен тем, что данная архея оносится таксону Euryarchaeota как и Halobacterium salinarum и живет в экстремальных условиях, но при этом в отличии от Halobacterium s. Thermococcus kodakarensis обитает при очень высоких температураъх и не имеет толерантности к гиперсоленым условиям обитания. Таким образом данные родственные организмы сильно отличаются между собой по их экологическим приспособлениям и, вероятно, по белкам. Для скачивания протеомов были составлены следующие запросы:

Halobacterium salinarum : wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000000554%29%29' -O UP000000554.swiss.gz

Thermococcus kodakarensis: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000000536%29%29' -O UP000000536.swiss.gz

После скачивания протеомов небоходимо сравнить их качество:

Swiss-Prot/all, % CPD BUSCO, C%
Halobacterium salinarum 20,3 unknown 86,4
Thermococcus kodakarensis 18,6 Close to standard 100
Оценка через Swiss-Prot малоинформативна для представления об общем качестве, но между протеомами значения близки, что говорит о сравнительно неплохой их изученности. Метрика CPD высокая для Thermococcus kodakarensis и неизвестна для Halobacterium salinarum. Метрика BUSCO более показательна. Для протеома сравнения она составляет 100%, для Halobacterium s. 86% (в данном случае это сумма уникальных и дуплицированных ортологов). Значения высокие. Из этого можно сделать вывод о высоком качестве геномов.

Сравнение протеомов по представленности определенных групп белков

Подсчет вхождений белков был произведен в bash. Ниже приведены команды для подсчета(для уменьшения текста команды приведены только для Halobacterium salinarum. Для протеома сравнения команды будут идентичными, только поменяется идетификатор):

1) Трансмембранные белки

zgrep 'KW' UP000000554.swiss.gz | zgrep 'Transmembrane helix' | wc -l

Используется поиск по 'Transmembrane helix' так как слово 'Transmembrane' в KW может встречаться несколько раз, а 'Transmembrane helix' только один раз.

2) Ферменты

zgrep 'CC' UP000000554.swiss.gz | zgrep 'CATALYTIC ACTIVITY' | wc -l

3) Семейство опсинов.

Halobacterium salinarum отличается обитанием в засоленных местах и наличием родопсинового фотосинтеза. Поэтому был проведен поиск по белкам из семейства опсинов. В родственном организме таких белков не оказалось.

zgrep 'CC' UP000000554.swiss.gz | zgrep 'opsin family' | wc -l

Трансмембранные, % Ферменты, % Семейство опсинов, %
Halobacterium salinarum 19,2 17,5 0,165
Thermococcus kodakarensis 20,2 18,5 0

Сравнение протеомов по длинам белков

Была посчитана средняя длина белков. В результате белки не сильно различаются по среднему и в целом по распределению длин (для этого проверялось относительное количество в разных диапозонах). Для Halobacterium salinarum средняя длина составила 277 ак, для Thermococcus kodakarensis 280. Значительных различий нет.

Код