← назад ко II семестру

Практикум № 05 · II семестр

Анализ протеома Humibacter sp. BT305

Поиск соответствующего протеома UniProt, выбор референсного протеома, оценка аннотаций по альфа-спиралям, трансмембранным участкам и ферментативной активности.

○ 02

Поиск и скачивание референсного протеома

Для поиска ближайшего референсного протеома сначала был определён таксон организма в базе UniProt Taxonomy. Для Humibacter sp. BT305 используется TaxID 2282656. Поиск референсного протеома был начат с уровня исследуемого организма.Использованный поисковый запрос в базе Proteomes:

taxonomy_id:2282656 AND status:"Reference proteome"

Переходить к более высокому таксону не потребовалось, поскольку референсный протеом уже найден для самого исследуемого организма — это UP000255169.

Для скачивания белковых записей, принадлежащих выбранному протеому, в базе UniProtKB использовался запрос proteome:UP000255169. Для выгрузки записей в формате flat file UniProtKB (txt, соответствующем формату swiss в EMBOSS) в gzip-сжатом виде была использована следующая команда:

curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28proteome%3AUP000255169%29' > ~/term2/pr8/UP000255169.swiss.gz

В результате был получен файл ~/term2/pr8/UP000255169.swiss.gz.

Файл с белковыми записями референсного протеома: UP000255169.swiss.gz.

○ 03

Оценка количества белков, содержащие альфа-спирали

Для оценки числа белков, содержащих альфа-спирали, были проанализированы аннотации поля FT в записях UniProtKB. В описании формата записей UniProtKB ключ HELIX соответствует участкам альфа-спирали, а ключ TRANSMEM — трансмембранным сегментам. Для подсчёта числа записей, а не числа строк, был использован Python-скрипт, читающий gzip-файл напрямую и проверяющий наличие нужных ключей внутри каждой записи до разделителя //:


                    import gzip

                    filename = "UP000255169.swiss.gz"

                    records = 0
                    with_helix = 0
                    with_transmem = 0

                    has_helix = False
                    has_transmem = False

                    with gzip.open(filename, "rt") as fh:
                        for line in fh:
                            if line.startswith("FT   HELIX"):
                                has_helix = True
                            elif line.startswith("FT   TRANSMEM"):
                                has_transmem = True
                            elif line.startswith("//"):
                                records += 1
                                if has_helix:
                                    with_helix += 1
                                if has_transmem:
                                    with_transmem += 1
                                has_helix = False
                                has_transmem = False

                    print("total_records =", records)
                    print("records_with_HELIX =", with_helix)
                    print("records_with_TRANSMEM =", with_transmem)
                

При запуске скрипта были получены следующие результаты: total_records = 3539, records_with_HELIX = 0, records_with_TRANSMEM = 812.

Полученный результат показывает, что в данном наборе записей отсутствуют явные аннотации с ключом HELIX, но присутствуют 812 записей с ключом TRANSMEM. Это не означает отсутствие альфа-спиралей в белках протеома. Ключ HELIX относится к явной аннотации вторичной структуры и встречается далеко не во всех записях UniProtKB. Ключ TRANSMEM описывает трансмембранные участки и относится к другой категории локальных особенностей.

Трансмембранные сегменты часто представлены альфа-спиралями, однако сам по себе ключ TRANSMEM не гарантирует этого для каждой записи. Для трансмембранных участков может быть указана дополнительная характеристика типа, но она присутствует не всегда. Поэтому оценка по HELIX в данном случае является заниженной из-за отсутствия явных аннотаций вторичной структуры, а оценка по TRANSMEM даёт только косвенное приближение для числа белков, которые могут содержать трансмембранные альфа-спирали. Следовательно, эти две оценки не противоречат друг другу, но и не могут рассматриваться как два равноценных способа подсчёта одного и того же признака.

○ 04

Оценка количества ферментов, содержащихся в протеоме

Для оценки количества ферментов в референсном протеоме были использованы два поисковых запроса UniProtKB по разным полям. Первый запрос был основан на наличии EC-номера:

proteome:UP000255169 AND ec:*

Этот запрос дал 742 результата.

Второй запрос был основан на наличии блока комментария CATALYTIC ACTIVITY:

proteome:UP000255169 AND cc_catalytic_activity:*

Этот запрос дал 611 результатов.

Обе оценки связаны с ферментативной активностью, но отражают её по-разному. Запрос по полю ec находит белки, для которых указан код EC, то есть ферментативная активность описана в форме классификации по катализируемой реакции. Запрос по полю cc_catalytic_activity находит записи, где в комментариях явно присутствует блок о каталитической активности.

В данном случае количество находок по запросу ec:* оказалось больше, чем по запросу cc_catalytic_activity:*. Это не является логическим противоречием, поскольку аннотации разных полей в UniProt заполняются не полностью синхронно: часть белков может уже иметь EC-номер, но не иметь отдельного комментария CATALYTIC ACTIVITY, либо такой комментарий может быть оформлен не во всех записях. Следовательно, обе оценки являются приближёнными и скорее задают нижнюю границу числа ферментов.

Запрос по ec в данном случае выглядит более чувствительным, но тоже не гарантирует нахождение всех ферментов, так как не всякая ферментативная активность в базе доведена до присвоения EC-номера. Запрос по cc_catalytic_activity является более строгим и даёт более консервативную оценку. Поэтому реальное число белков с ферментативной активностью в протеоме, вероятно, существенно выше этих значений и может быть заметно больше 742.

Вывод

Для Humibacter sp. BT305 был найден соответствующий протеом UniProt UP000255169, связанный со сборкой GCA_003347035.1 и имеющий статус Reference proteome. Именно этот протеом был использован как референсный для дальнейшей работы.

Анализ аннотаций показал, что в протеоме имеется 812 белков с аннотированными трансмембранными сегментами, тогда как явные аннотации HELIX в скачанном файле отсутствуют. Поэтому по ключу HELIX получить осмысленную оценку числа белков с альфа-спиралями не удалось, а оценка по TRANSMEM даёт лишь косвенное приближение.

Оценка числа ферментов по запросам UniProtKB дала значения 742 и 611. Эти величины следует рассматривать как неполные и, вероятно, заниженные оценки, поскольку реальное число белков с ферментативной активностью в протеоме может быть существенно выше.