Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Практикум 7. UniProt

При записи в очередь номер практикума 7.

Файлы на kodomo должны иметь указанные имена, а не лежать внутри public_html.

Дедлайны: 01:00 AM 6 апреля (мягкий) и 01:00 AM 13 апреля (жесткий). Добавил один день, чтобы вы могли задать вопрос по домашнему заданию после занятия и успели его доделать вечером.

Отчет в формате HTML-страницы об изучаемом белке будет один, после следующего занятия. Результаты данного практикума будут использоваться в отчете. Но проверяться они будут в другой форме (файлы специального формата на kodomo для упрощения проверки).

Отчет за следующий практикум должен будет содержать исследование выданного вам белка и протеома содержащего его организма средствами UniProt и не только. Предполагается, что всю необходимую информацию про белок вы получите в рамках выполнения данного практикума (а протеомом займетесь в следующем). Поэтому при выполнении заданий думайте, что может быть интересно для будущего отчета. Советую сразу начать писать его черновик.

Некоторые задания сформулировал расплывчато. Расчитываю, это не поставит вас в тупик, а, наоборот, подстегнет фантазию и креативность. Из-за этого мне сложно предсказать, какие функции UniProt вам понадобятся, и с какими проблемами вы столкнетесь. Любые вопросы приветствуются!

— ИР

Задания

1. Найдите литературу о выданном белке и организме

Список белков в таблице. Если с белком какие-то проблемы, то можно взять резервный, но нужно сообщить мне (ИР), чтобы я поменял белок в списке.

Организм – та бактерия или архея, в геноме которой выданный белок закодирован.

Создайте заготовку HTML-страницы с отчетом за следующий практикум. В этом практикуме на ней нужно будет привести только совсем краткое введение, содержащее самые общие сведения о выданном белке и организме (по паре предложений, много текста приводить не нужно). Введение должно быть оформленно по правилам научных текстов, т.е. должны быть ссылки на источник информации, они должны быть в одном из принятых форматов (как в научных статьях), причем источники должны быть достоверными. Странички в базах данных и википедия не являются достоверными источниками информации, потому что не рецензируются учеными. Читать википедию можно, но ссылаться на нее нельзя, вместо этого ищите рецензируемый источник найденной информации, часто он указан. Только обязательно надо убедиться, что в указанной статье действительно есть нужная инфомация!

При записи в очередь на проверку практикума нужно будет указать только адрес заготовки HTML-страницы. Остальные задания предполагают создание файлов на kodomo с фиксированными именами, которые буду проверять автоматически.

2. Найти информацию о своем белке в UniProt

Пример отчетного файла ~/term2/pr7/protein_info.txt:

ID:DDRB_DEIRA
AC:Q9RY80,C6SUN7
Name:Single-stranded DNA-binding protein DdrB
Organism:Deinococcus radiodurans (strain ATCC ... B-1422)
TaxID:243230
INSDC:AE000513,BK006794
PDB:4HQB,4NOE
Length:188 аа
MW:20830 Da

Комментарии:

При получении списка идентификаторов PDB обратите внимание на сопровождающую их информацию. Определите, для всего ли белка известна структура, и как она представлена в записях PDB. В файле отражать не нужно, но понадобится в отчете в следующем практикуме. Так что разберитесь, где искать эту информацию.

При составлении файлов вам могут пригодиться команды bash. Ведь можно скачать запись о вашем белке на kodomo и работать с ней в командной строке. Например, у некоторых в записи приведено множество ссылок на PDB. Получить их список в виде одной строки через запятую будет значительно проще с помощью команд bash (grep, cut, paste/tr), чем ручным копированием (а перепечатывать любые идентификаторы вручную я крайне не рекомендую, ошибиться очень просто).

Скачать запись поможет уже знакомый вам wget:

wget 'https://www.uniprot.org/uniprot/P0A6P9.txt'

3. Изучение кластеров UniRef

Для своего белка найдите кластеры UniRef. Для каждого белка UniProtKB есть ровно по одному кластеру в UniRef50, UniRef90 и UniRef100. Есть разные способы их найти. Разберитесь сами. Подсказка: в строке поиска в начале страницы можно выбрать базу, по которой искать, а еще есть вариант с уже знакомой вам формой "Retrieve/ID mapping". Не советую искать кластеры на отформатированной странице белка, на ней могут быть указаны не все кластеры, особо любопытные могут разобраться, в каких случаях.

Проверять буду файл ~/term2/pr7/protein_clusters.txt. Пример файла:

ID:UniRef100_Q9RY80
Size:1
Length:188
Name:Single-stranded DNA-binding protein DdrB

ID:UniRef90_Q9RY80
Size:4
Length:188
Name:Single-stranded DNA-binding protein DdrB

ID:UniRef50_Q9RY80
Size:76
Length:188
Name:Single-stranded DNA-binding protein DdrB

Комментарии:

Попробуйте сделать выводы, например, о распространенности белка, по размеру кластеров и/или их таксономическому охвату. Разберитесь, является ли изучаемый белок сидом (seed) в этих кластерах или репрезентативной последовательностью (representative). Подумайте, о чем это может говорить. В файле это отражать не нужно, но может понадобиться в отчете за следующий практикум.

4. Сеансы поиска в UniProt

Техническая задача – научиться пользоваться расширенным поиском по UniProt, правильно составлять запросы (и убедить меня, что вы научились). Биологическая задача – получить информацию о своем белке для отчета за следующий практикум. Самодеятельность приветствуется. В частности можно поискать белки с таким же (или схожим) описанием (description) в других таксонах, чтобы, например, определить, насколько это распространенный белок. Самое большое внимание буду уделять тому, правильно ли составлен запрос (информацию нужно искать только в правильных полях, чтобы избежать ложных находок), насколько запросы разнообразные (поиск по разным полям, разные способы логического объединения частей запроса и т.д.), фантазию и изобретательность при постановке вопроса и составлении запроса.

Совсем не лишним будет сначала поизучать, на что вообще способен расширенный поиск, какие возможности он предоставляет, посмотреть примеры запросов на страницах с помощью.

Задание специально сформулированно максимально расплывчато. С одной стороны, не хочется ограничивать вашу фантазию (а совсем даже наоборот). С другой стороны, хочется сразу видеть, если кто-то вдохновлялся чужой работой.

Проверять буду файл ~/term2/pr7/uniprot_queries.txt. Пример файла:

(name:enolase NOT name:inhibitor) taxonomy:"Escherichia coli [562]"
Swiss-Prot:21
Total:154

name:enolase name:inhibitor taxonomy:"Escherichia coli [562]"
Swiss-Prot:0
Total:0

Комментарии:

5. [дополнительное] История изменений записи UniProt

Для каждой записи хранится история её изменений, которую можно посмотреть, нажав на кнопку History. Попробуйте найти в истории записи что-нибудь интересное, что будет не лишним упомянуть в отчете за следующий практикум. За интересную находку в истории записи можно будет получить бонусные баллы.

6. [дополнительное] Подробнее о формате записи UniProtKB

Можете подробнее изучить внутренний формат поля СС, или значения ключей в поле FT. Если получится найти какую-то интересную информацию о своем белке, указанную в этих полях, и разобраться, каким образом подобная информация указывается в записях UniProtKB (может быть несколько способов), то можете добавить это в отчет за следующий практикум. Действительно интересные находки добавят вам бонусных баллов.

2021/2/pr7 (последним исправлял пользователь is_rusinov 2022-04-04 18:38:43)