Практикум 8
Выбор протеомов
Для выбора подходящих протеомов я использовала расширенный поиск по базе Proteomes.
В качестве первого протеома я выбрала референсный протеом бактерии Sulfurimonas aquatica (идентификатор: UP000671852), про которую я писала мини-обзор в предыдущем семестре. Общее количество белков в данном протеоме – 2626.
В качестве второго протеома я выбрала референсный протеом Helicobacter pylori (идентификатор: UP000000429). Общее количество белков – 1554. Мой выбор основан на том, что раньше род Sulfurimonas относили к семейству Helicobacteraceae. При этом Helicobacter pylori является хорошо изученным организмом.
Для оценки степени изученности выбранных протеомов я решила использовать степень аннотированности белков этих протеомов.
В протеоме Sulfurimonas aquatica нет ни одного белка, аннотированного на 5/5. На 4/5 аннотировано 9 белков.
В протеоме Helicobacter pylori на 5/5 аннотирован 21 белок, на 4/5 54 белка.
Из этих данных можно сделать вывод, что протеом Helicobacter pylori изучен намного лучше.
Скачивание протеомов
Для скачивания протеомов я составила соответствующие URL:
https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000671852)
https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000000429)
После этого URL подставила в команды:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000671852)' -O UP000671852.swiss.gz
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000000429)' -O UP000000429.swiss.gz
Сравнение протеомов
В данном разделе будут сравниваться выбранные протеомы по представленности определенных "функциональных групп". В качестве таких групп я рассмотрю трансмембранные белки, ферменты
Трансмембранные белки
Для анализа доли трансмембранных белков в выбранных протеомах я использовала расширенный поиск. Для этого я составила следующие запросы:
(proteome:UP000671852) AND (ft_transmem:*)
(proteome:UP000000429) AND (ft_transmem:*)
В протеоме Sulfurimonas aquatica нашелся 541 белок (20,6% от всех белков протеома), удовлетворяющих запросу.
В протеоме Helicobacter pylori нашлось 292 белка (18,79% от всех белков протеома), удовлетворяющих запросу.
Доля трансмембранных белков в протеомах практически не отличается. Вероятно, это можно объяснить тем, что обе бактерии являются сравнительно близкими родственниками.
Ферменты
Для оценки доли ферментов в выбранных протеомах я составила следующие запросы для расширенного поиска:
(proteome:UP000671852) AND (ec:*)
(proteome:UP000000429) AND (ec:*)
В протеоме Sulfurimonas aquatica нашлось 599 белков, удовлетворяющих запросу (22,8% от всех белков протеома).
В протеоме Helicobacter pylori нашлось 463 белка, удовлетворяющих запросу (29,79% от всех белков протеома).
По полученным данным мы видим, что доля ферментов заметно больше во втором протеоме. Могу предположить, что это связано с тем, что протеом Sulfurimonas aquatica изучен и аннотирован хуже. Возможно, часть ферментов данной бактерии не классифицированы. Или, например, часть белков имеют неизвестную/не до конца изученную функцию.
В случае если часть ферментов Sulfurimonas aquatica не были классифицированы, то результаты работы с файлами отличались бы от полученных мной результатов, так как при работе с файлами можно выяснить, классификация какого количества ферментов находится под вопросом и учесть это в ходе анализа.
Регуляторные белки
Для оценки доли регуляторных белков в выбранных протеомах я составила следующие запросы для расширенного поиска:
(proteome:UP000671852) AND (cc_activity_regulation:*)
(proteome:UP000000429) AND (cc_activity_regulation:*)
В протеоме Sulfurimonas aquatica нашлось 7 белков, удовлетворяющих запросу (0,27% от всех белков протеома).
В протеоме Helicobacter pylori нашелся 21 белок, удовлетворяющий запросу (1,35% от всех белков протеома).
Разница между долями регуляторных белков в этих протеомах значительна. Вероятно, ее можно объяснить тем, что контрольный протеом изучен лучше. Записи, принадлежащие Helicobacter pylori и удовлетворяющие запросу, аннотированы намного лучше. Например, на 5/5 аннотировано 6 записей. В то время как для Sulfurimonas aquatica среди записей, удовлетворяющих запросу, нет ни одной аннотированной на 5/5. В то же время на 4/5 аннотирована лишь одна запись.
Ключевые слова
В этом разделе я сравнивала 10 самых часто встречающихся ключевых слов для двух протеомов. Для этого я написала скрипт на Python [S1]. На вход подается название файла (UP000671852.swiss.gz или UP000000429.swiss.gz соответственно). В результате выдаются 10 наиболее часто встречающихся ключевых слов для протеома и количество использований (табл. 1 и табл. 2 соответственно).
Таблица 1. Наиболее часто встречающиеся ключевые слова для протеома Sulfurimonas aquatica.
Ключевое слово |
Количество использований |
Reference proteome |
2360 |
Membrane |
574 |
Transmembrane |
557 |
Transmembrane helix |
546 |
Transferase |
298 |
Metal-binding |
292 |
Referenceproteome |
266 |
Nucleotide-binding |
241 |
Signal |
231 |
Cytoplasm |
216 |
Таблица 2. Наиболее часто встречающиеся ключевые слова для протеома Helicobacter pylori.
Ключевое слово |
Количество использований |
Reference proteome |
924 |
Membrane |
233 |
Transmembrane |
221 |
Transmembrane helix |
215 |
Signal |
91 |
Coiled coil |
75 |
3D-structure |
69 |
Transferase |
66 |
Metal-binding |
64 |
Transport |
57 |
Из полученных данных видно, что 4 самых часто встречающихся ключевых слова в обоих протеомах совпадают. Различие в количестве использований объясняется различием в общем количестве белков.
Наличие ключевого слова 3D-structure в списке часто встречающихся для Helicobacter pylori (и отсутствие его в аналогичном списке для Sulfurimonas aquatica) подтверждает то, что протеом Helicobacter pylori изучен лучше – для многих белков известна их 3D-структура. На это также указывает ключевое слово Coiled coil: для многих белков известны конкретные структуры, которые входят в их состав.
Сопроводительные материалы
S1. Скрипт на Python для вывода 10 самых встречающихся ключевых слов.