1. ВЫБОР БЕЛКА
Для поиска белков бактерии Natranaerobius thermophilus JW/NM-WN-LF я использовал расширенный поиск UniProt. Основной запрос был такой:
organism_id:457570
Этот запрос выбирает записи для Natranaerobius thermophilus strain ATCC BAA-1301 / DSM 18059 / JW/NM-WN-LF.
Чтобы выбрать белок для дальнейшего анализа, я сузил поиск до вручную аннотированных записей Swiss-Prot с помощью запроса:
organism_id:457570 AND reviewed:true
Из найденных белков я выбрал chaperonin GroEL (UniProt AC: B2A5V3, entry name CH60_NATTJ). Этот белок привлёк меня по нескольким причинам. Во-первых, его запись находится в разделе Swiss-Prot, то есть она курирована и содержит более надёжную аннотацию. Во-вторых, GroEL — это известный и хорошо изученный молекулярный шаперон, участвующий в правильном сворачивании белков. В-третьих, для экстремофильной бактерии Natranaerobius thermophilus, обитающей в щелочных, солёных и термофильных условиях, системы поддержания правильной структуры белков особенно важны, поэтому этот белок биологически интересен.
Дополнительно я проверил, что нужный белок действительно находится отдельным запросом по имени гена:
organism_id:457570 AND gene:groEL
По этому запросу была найдена 1 запись, что подтвердило правильность выбора.
2. ИНФОРМАЦИЯ О БЕЛКЕ
Для дальнейшего анализа я перешёл со страницы результатов поиска на страницу белка по accession B2A5V3, а затем открыл запись в текстовом формате через Download → Format: Text.
Выбранный белок — Chaperonin GroEL. Это белок семейства Hsp60, который помогает другим белкам правильно сворачиваться и предотвращает образование неправильных конформаций. Такие белки особенно важны для организмов, живущих в экстремальных условиях, поскольку высокая температура, щелочной pH и высокая концентрация солей увеличивают риск нарушения структуры клеточных белков.
Запись этого белка удобна для анализа, потому что она хорошо аннотирована: для неё указаны название, ген, таксономическая принадлежность, длина и молекулярная масса белка, а также есть ссылки на нуклеотидную запись генома. Кроме того, сам белок относится к числу фундаментальных клеточных белков, распространённых у многих бактерий, поэтому его можно дополнительно анализировать через UniRef и поисковые запросы в UniProt.
Интересно, что для экстремофильного микроорганизма наличие хорошо аннотированного шаперона выглядит вполне ожидаемо: устойчивость протеома в таких условиях требует эффективных систем клеточной защиты и контроля сворачивания белков.
3. КЛАСТЕРЫ ПОХОЖИХ БЕЛКОВ
Для выбранного белка я нашёл соответствующие кластеры UniRef100, UniRef90 и UniRef50. Кластер UniRef100 для этого белка содержит только 1 последовательность, то есть в базе не было других совершенно идентичных последовательностей, объединённых с ним в один 100%-й кластер. Это согласуется с тем, что в загруженном файле UniRef100 присутствует только одна запись — сам белок CH60_NATTJ / B2A5V3.
Кластер UniRef90 оказался заметно больше: 2 белка. Это означает, что у выбранного GroEL есть по крайней мере один очень близкий гомолог с уровнем сходства, достаточным для объединения в кластер UniRef90. В частности, среди членов этого кластера присутствует белок GroEL из Natranaerobius trueperi, то есть из близкого вида того же рода. Это показывает, что последовательность выбранного белка хорошо сохраняется как минимум в пределах близких таксонов.
Самым крупным оказался кластер UniRef50: 512 записей. Это означает, что более удалённые гомологи GroEL чрезвычайно широко распространены среди бактерий. Такой результат вполне ожидаем для белка GroEL, потому что это один из фундаментальных клеточных шаперонов, участвующих в базовом процессе сворачивания белков.
Таким образом, сравнение размеров кластеров UniRef100, UniRef90 и UniRef50 показывает, что полностью идентичные последовательности для выбранного белка редки, очень близкие варианты встречаются у близких организмов, а более далёкие гомологи широко распространены в самых разных бактериальных группах.
4. ПОИСКОВЫЕ ЗАПРОСЫ
Ниже приведены несколько запросов, которые я использовал в расширенном поиске UniProt, а также цель каждого из них и результаты.
Запрос 1
organism_id:457570
Цель запроса: получить полный набор белков именно для моего организма, Natranaerobius thermophilus JW/NM-WN-LF.
Количество находок: 2848.
Вывод: этот запрос удобен как отправная точка, потому что он ограничивает поиск только одним таксоном и позволяет оценить, сколько белковых записей вообще есть для данного организма в UniProt.
Запрос 2
organism_id:457570 AND reviewed:true
Цель запроса: оставить только записи из раздела Swiss-Prot, то есть записи с ручной аннотацией.
Количество находок: 218.
Вывод: таких записей заметно меньше, чем всех белков организма, зато именно среди них удобнее выбирать белок для задания, потому что они обычно содержат более надёжную и полную информацию.
Запрос 3
organism_id:457570 AND gene:groEL
Цель запроса: найти конкретный белок по имени гена.
Количество находок: 1.
Вывод: запрос подтвердил, что в протеоме этого организма есть запись белка GroEL, и позволил быстро перейти к нужной записи без ручного просмотра большого списка белков.
Запрос 4
organism_id:457570 AND protein_name:"chaperonin GroEL"
Цель запроса: проверить, как белок находится по полю названия белка, а не по имени гена.
Количество находок: 1.
Вывод: поиск по полю protein_name полезен, когда известно именно название белка, но не известен ген. Такой запрос также показывает, насколько важно искать информацию в правильном поле, чтобы избежать лишних или ложных находок.
Запрос 5
proteome:UP000001683 AND keyword:"Chaperone"
Цель запроса: посмотреть, сколько в протеоме этого организма белков, связанных с шаперонной функцией.
Количество находок: 22.
Вывод: этот запрос позволяет рассмотреть не один белок, а функциональную группу белков, участвующих в стресс-ответе и поддержании правильного сворачивания белков. Для экстремофильного организма это особенно интересно, поскольку такие белки, вероятно, играют важную роль в адаптации к условиям среды.
ОБЩИЙ ВЫВОД
Расширенный поиск UniProt позволяет искать белки по разным типам полей: по организму, по статусу аннотации, по имени гена, по названию белка, по протеому и по ключевым словам. Это важно, потому что запросы, составленные по правильным полям, дают более точные и интерпретируемые результаты. В моём случае такие запросы помогли сначала ограничить поиск нужным организмом, затем выделить вручную аннотированные записи и в итоге выбрать хорошо описанный белок chaperonin GroEL для дальнейшего анализа.