Учебный сайт Карины Сим
  • Главная
  • Семестры
  • Обо мне
  • ФББ

    Практикум 8

    Выбор протеомов

    Для выбора подходящих протеомов я использовала расширенный поиск по базе Proteomes.

    В качестве первого протеома я выбрала референсный протеом бактерии Sulfurimonas aquatica (идентификатор: UP000671852), про которую я писала мини-обзор в предыдущем семестре. Общее количество белков в данном протеоме – 2626.

    В качестве второго протеома я выбрала референсный протеом Helicobacter pylori (идентификатор: UP000000429). Общее количество белков – 1554. Мой выбор основан на том, что раньше род Sulfurimonas относили к семейству Helicobacteraceae. При этом Helicobacter pylori является хорошо изученным организмом.

    Для оценки степени изученности выбранных протеомов я решила использовать степень аннотированности белков этих протеомов.

    В протеоме Sulfurimonas aquatica нет ни одного белка, аннотированного на 5/5. На 4/5 аннотировано 9 белков.

    В протеоме Helicobacter pylori на 5/5 аннотирован 21 белок, на 4/5 54 белка.

    Из этих данных можно сделать вывод, что протеом Helicobacter pylori изучен намного лучше.

    Скачивание протеомов

    Для скачивания протеомов я составила соответствующие URL:

    https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000671852)

    https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000000429)

    После этого URL подставила в команды:

    wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000671852)' -O UP000671852.swiss.gz

    wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000000429)' -O UP000000429.swiss.gz

    Сравнение протеомов

    В данном разделе будут сравниваться выбранные протеомы по представленности определенных "функциональных групп". В качестве таких групп я рассмотрю трансмембранные белки, ферменты

    Трансмембранные белки

    Для анализа доли трансмембранных белков в выбранных протеомах я использовала расширенный поиск. Для этого я составила следующие запросы:

    (proteome:UP000671852) AND (ft_transmem:*)

    (proteome:UP000000429) AND (ft_transmem:*)

    В протеоме Sulfurimonas aquatica нашелся 541 белок (20,6% от всех белков протеома), удовлетворяющих запросу.

    В протеоме Helicobacter pylori нашлось 292 белка (18,79% от всех белков протеома), удовлетворяющих запросу.

    Доля трансмембранных белков в протеомах практически не отличается. Вероятно, это можно объяснить тем, что обе бактерии являются сравнительно близкими родственниками.

    Ферменты

    Для оценки доли ферментов в выбранных протеомах я составила следующие запросы для расширенного поиска:

    (proteome:UP000671852) AND (ec:*)

    (proteome:UP000000429) AND (ec:*)

    В протеоме Sulfurimonas aquatica нашлось 599 белков, удовлетворяющих запросу (22,8% от всех белков протеома).

    В протеоме Helicobacter pylori нашлось 463 белка, удовлетворяющих запросу (29,79% от всех белков протеома).

    По полученным данным мы видим, что доля ферментов заметно больше во втором протеоме. Могу предположить, что это связано с тем, что протеом Sulfurimonas aquatica изучен и аннотирован хуже. Возможно, часть ферментов данной бактерии не классифицированы. Или, например, часть белков имеют неизвестную/не до конца изученную функцию.

    В случае если часть ферментов Sulfurimonas aquatica не были классифицированы, то результаты работы с файлами отличались бы от полученных мной результатов, так как при работе с файлами можно выяснить, классификация какого количества ферментов находится под вопросом и учесть это в ходе анализа.

    Регуляторные белки

    Для оценки доли регуляторных белков в выбранных протеомах я составила следующие запросы для расширенного поиска:

    (proteome:UP000671852) AND (cc_activity_regulation:*)

    (proteome:UP000000429) AND (cc_activity_regulation:*)

    В протеоме Sulfurimonas aquatica нашлось 7 белков, удовлетворяющих запросу (0,27% от всех белков протеома).

    В протеоме Helicobacter pylori нашелся 21 белок, удовлетворяющий запросу (1,35% от всех белков протеома).

    Разница между долями регуляторных белков в этих протеомах значительна. Вероятно, ее можно объяснить тем, что контрольный протеом изучен лучше. Записи, принадлежащие Helicobacter pylori и удовлетворяющие запросу, аннотированы намного лучше. Например, на 5/5 аннотировано 6 записей. В то время как для Sulfurimonas aquatica среди записей, удовлетворяющих запросу, нет ни одной аннотированной на 5/5. В то же время на 4/5 аннотирована лишь одна запись.

    Ключевые слова

    В этом разделе я сравнивала 10 самых часто встречающихся ключевых слов для двух протеомов. Для этого я написала скрипт на Python [S1]. На вход подается название файла (UP000671852.swiss.gz или UP000000429.swiss.gz соответственно). В результате выдаются 10 наиболее часто встречающихся ключевых слов для протеома и количество использований (табл. 1 и табл. 2 соответственно).

    Таблица 1. Наиболее часто встречающиеся ключевые слова для протеома Sulfurimonas aquatica.

    Ключевое слово Количество использований
    Reference proteome 2360
    Membrane 574
    Transmembrane 557
    Transmembrane helix 546
    Transferase 298
    Metal-binding 292
    Referenceproteome 266
    Nucleotide-binding 241
    Signal 231
    Cytoplasm 216

    Таблица 2. Наиболее часто встречающиеся ключевые слова для протеома Helicobacter pylori.

    Ключевое слово Количество использований
    Reference proteome 924
    Membrane 233
    Transmembrane 221
    Transmembrane helix 215
    Signal 91
    Coiled coil 75
    3D-structure 69
    Transferase 66
    Metal-binding 64
    Transport 57

    Из полученных данных видно, что 4 самых часто встречающихся ключевых слова в обоих протеомах совпадают. Различие в количестве использований объясняется различием в общем количестве белков.

    Наличие ключевого слова 3D-structure в списке часто встречающихся для Helicobacter pylori (и отсутствие его в аналогичном списке для Sulfurimonas aquatica) подтверждает то, что протеом Helicobacter pylori изучен лучше – для многих белков известна их 3D-структура. На это также указывает ключевое слово Coiled coil: для многих белков известны конкретные структуры, которые входят в их состав.

    Сопроводительные материалы

    S1. Скрипт на Python для вывода 10 самых встречающихся ключевых слов.