Практикум 8. Отчёт по организму Pyrococcus abyssi GE5
В работе использовался организм Pyrococcus abyssi GE5. Целью было найти соответствующий геномной сборке протеом UniProt, выбрать референсный протеом для дальнейшей работы, оценить число белков с альфа-спиралями и оценить количество ферментов в протеоме по нескольким независимым признакам.
1. Поиск протеома, соответствующего геномной сборке
Сначала был найден протеом UniProt, соответствующий геномной сборке организма Pyrococcus abyssi GE5. Для этого использовался поиск по сборке в базе UniProt Proteomes.
В результате был найден протеом:
| Параметр | Значение |
|---|---|
| Proteome ID | UP000000810 |
| Organism | Pyrococcus abyssi GE5 |
| Status | Reference proteome |
Для получения белковых записей этого протеома в UniProtKB использовался поисковый запрос:
proteome:UP000000810
Этот запрос выбирает все белковые записи, относящиеся к данному протеому.
Таким образом, для Pyrococcus abyssi GE5 был найден протеом UP000000810, имеющий статус Reference proteome. Это означает, что данный протеом считается опорным и подходит для дальнейшего анализа.
2. Поиск и скачивание референсного протеома
Следующим шагом нужно было выбрать референсный протеом, наиболее подходящий для дальнейшего анализа белковых записей. Для работы был использован протеом:
Proteome ID: UP000001013
Для получения всех записей этого протеома в формате UniProtKB flat file (swiss) был использован запрос:
proteome:UP000001013
Чтобы скачать записи через REST API UniProt в формате swiss и в сжатом виде, использовалась команда:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28proteome%3AUP000001013%29' -O UP000001013.swiss.gz
Именно этот файл затем использовался в заданиях 3 и 4.
3. Оценка числа белков, содержащих альфа-спирали
В этом задании нужно было оценить, сколько белков в выбранном протеоме содержат альфа-спирали. По условию важно считать не отдельные строки FT HELIX, а именно записи, в которых такой признак встречается хотя бы один раз.
Также нужно было сравнить это число с количеством записей, содержащих трансмембранные участки FT TRANSMEM.
Полученные результаты
| Показатель | Значение |
|---|---|
| Число записей с FT HELIX | 108 |
| Число записей с FT TRANSMEM | 382 |
| Число записей, где есть и HELIX, и TRANSMEM | 0 |
Использованный bash-конвейер для подсчёта записей с FT HELIX
zgrep '^ID \|^FT HELIX' UP000001013.swiss.gz | grep -B1 '^FT HELIX' | grep '^ID ' | wc -l
-
zgrep '^ID \|^FT HELIX' UP000001013.swiss.gz
Эта команда читает сжатый файл .gz без ручной распаковки.
zgrep — это аналог grep для сжатых файлов
'^ID ' выбирает строки, начинающиеся с ID, то есть начало записи.
'^FT HELIX' выбирает строки, где в поле FT указана альфа-спираль.
После этого в потоке остаются только:
- строки ID из записей,
- строки FT HELIX.
-
grep -B1 '^FT HELIX'
Эта команда для каждой строки FT HELIX берёт ещё одну строку перед ней.
Опция -B1 означает “one line Before”, то есть добавить одну предыдущую строку.
После первого фильтра перед первой строкой FT HELIX в записи стоит именно строка ID, поэтому эта команда подтягивает ID только для тех записей, где действительно есть HELIX.
-
grep '^ID '
Теперь из получившегося потока оставляются только строки ID.
Так как после предыдущего шага остались только ID тех записей, где встретился хотя бы один FT HELIX, число таких строк равно числу нужных записей.
-
wc -l
Эта команда считает число строк.
Так как каждая строка ID соответствует одной записи, итоговое число и есть число записей, в которых есть хотя бы одна альфа-спираль.
Аналогичный подсчёт для FT TRANSMEM
Для трансмембранных участков использовался полностью аналогичный подход:
zgrep '^ID \|^FT TRANSMEM' UP000001013.swiss.gz | grep -B1 '^FT TRANSMEM' | grep '^ID ' | wc -l
Здесь логика та же самая, только вместо FT HELIX искались строки FT TRANSMEM. Результат: 382 записи.
Подсчёт записей, где есть оба признака
Чтобы оценить число записей, где есть и альфа-спираль, и трансмембранный участок, можно использовать тот же принцип: сначала выбрать записи с интересующими признаками, а потом проверить пересечение.
zgrep '^ID \|^FT HELIX\|^FT TRANSMEM' UP000001013.swiss.gz | grep -B1 '^FT HELIX' | grep -A1 '^ID ' | grep -B1 '^FT TRANSMEM' | grep '^ID ' | wc -l
В моём случае результат получился такой:
число записей, где есть и HELIX, и TRANSMEM: 0
Интерпретация результата
Из полученных чисел видно, что:
- белков с признаком FT TRANSMEM оказалось значительно больше, чем белков с FT HELIX;
- пересечение между этими двумя группами в моих данных не обнаружилось.
Из этого можно сделать вывод, что в рамках данного набора записей признаки HELIX и TRANSMEM распределены независимо и не совпали ни в одной записи. На практике это означает, что наличие трансмембранного участка в этих белках не сопровождалось аннотацией альфа-спиралей в тех же записях.
4. Оценка количества ферментов в протеоме
В этом задании нужно было оценить, сколько белков в протеоме обладают ферментативной активностью. В подсказках к заданию было отмечено, что одного идеального признака нет, поэтому лучше использовать несколько разных поисковых запросов и сравнить результаты.
Я использовала три разных подхода:
- поиск по полю EC,
- поиск по полю каталитической активности,
- поиск по названию белка с шаблоном *ase*.
Это позволяет сравнить более строгую, более узкую и более широкую оценки.
4.1. Поиск по EC-номеру
Использованный запрос:
proteome:UP000001013 AND ec:*
Результат:
| Категория | Количество |
|---|---|
| всего найдено | 454 записи |
| reviewed (Swiss-Prot) | 315 |
| unreviewed (TrEMBL) | 139 |
Интерпретация
Это одна из самых надёжных оценок, потому что EC-номер напрямую связан с ферментативной активностью. Если у белка есть EC-номер, это сильный признак того, что он является ферментом.
При этом такой подход может немного занижать реальное число ферментов, потому что не всем белкам с ферментативной функцией успели присвоить EC-номер.
4.2. Поиск по каталитической активности
Вместо общего запроса по аннотациям я использовала конкретный запрос по полю каталитической активности:
proteome:UP000001013 AND cc_catalytic_activity:*
Результат:
| Категория | Количество |
|---|---|
| всего найдено | 395 записей |
| reviewed (Swiss-Prot) | 290 |
| unreviewed (TrEMBL) | 105 |
Интерпретация
Этот запрос ищет белки, у которых в комментариях UniProt есть аннотация о каталитической активности. Это тоже хороший признак ферментативной функции, но он немного отличается от поиска по EC.
В моих данных число таких записей оказалось меньше, чем число записей с EC. Это показывает, что разные поля UniProt отражают ферментативную активность немного по-разному. Часть записей может иметь EC-номер, но не быть найдена по выбранному полю комментариев, и наоборот.
4.3. Поиск по названию белка *ase*
Использованный запрос:
proteome:UP000001013 AND protein_name:*ase*
Результат:
| Категория | Количество |
|---|---|
| всего найдено | 921 запись |
| reviewed (Swiss-Prot) | 324 |
| unreviewed (TrEMBL) | 597 |
Интерпретация
Это самая грубая оценка. Многие ферменты действительно имеют названия, оканчивающиеся на -ase, поэтому такой поиск захватывает большое число потенциальных ферментов.
Но этот способ наименее точный:
- не все ферменты имеют название на -ase,
- некоторые белки могут попасть в выдачу по совпадению в названии,
- число сильно увеличивается за счёт менее надёжно аннотированных unreviewed-записей.
Поэтому такой запрос лучше рассматривать не как точную оценку, а как очень широкую верхнюю границу.
Сравнение результатов по трём запросам
Итоговые значения такие:
| Запрос | Результат |
|---|---|
| по EC | 454 |
| по cc_catalytic_activity:* | 395 |
| по protein_name:*ase* | 921 |
По этим результатам видно, что оценки довольно сильно различаются.
Вывод по точности запросов
Наиболее разумной оценкой количества ферментов я считаю результат запроса по EC, потому что он опирается на прямую функциональную классификацию белков. Эта оценка получается достаточно строгой и биологически осмысленной.
Запрос по cc_catalytic_activity:* тоже полезен, но он оказался немного уже. Его можно рассматривать как альтернативную строгую оценку по функциональной аннотации.
Запрос по protein_name:*ase* даёт сильно завышенную величину и потому не подходит как основная оценка. Он скорее показывает, насколько ненадёжно судить о функции только по названию белка.
Таким образом, реальное число ферментов в протеоме, вероятнее всего, находится ближе к диапазону 395–454, а значение 921 следует рассматривать как слишком широкую и неточную оценку.
Общий вывод
В ходе работы для Pyrococcus abyssi GE5 был найден соответствующий протеом UniProt UP000000810, имеющий статус Reference proteome.
Для дальнейшего анализа использовался протеом UP000001013, записи которого были скачаны в формате swiss через REST API UniProt.
При анализе локальных особенностей белков было получено:
- 108 записей с FT HELIX,
- 382 записи с FT TRANSMEM,
- 0 записей, где присутствуют оба признака одновременно.
Это показывает, что в данном наборе записей аннотации альфа-спиралей и трансмембранных участков не пересеклись.
Для оценки числа ферментов были использованы три разных запроса. Наиболее реалистичную оценку дали запросы по функциональным полям UniProt:
- ec:* — 454 записи,
- cc_catalytic_activity:* — 395 записей.
Поиск по названию *ase* дал значительно более широкую оценку — 921 запись, поэтому его нельзя считать точным способом подсчёта ферментов.
В целом работа показала, что результат сильно зависит от того, по какому именно полю выполняется поиск. Поэтому для функциональной оценки белков лучше опираться на специальные аннотационные поля, а не только на названия записей.