Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2022

Практикум 7. UniProt

Отчет должен включать страничку на сайте и два файла на kodomo. Файлы будут проверяться скриптами, поэтому они должны иметь указанные имена (а не лежать внутри public_html, например) и форматы. Проставлять ссылки на эти файлы со страницы отчета не нужно. При записи в очередь нужно указать адрес страницы с отчетом. Номер практикума 7.

Дедлайны: 11:00 PM 29 марта (мягкий) и 01:00 AM 5 апреля (жесткий). Добавил один день, чтобы вы могли задать вопрос по домашнему заданию после занятия и успели его доделать вечером.

1. Выбор белка

С помощью расширенного поиска на сайте UniProt найдите записи о белках своей бактерии/археи (той, про которую писали обзор). Выберите один из белков для анализа. Четких критериев нет, выбирайте любой, который понравился. Однако, белок должен быть достаточно хорошо аннотирован, чтобы для него имели смысл остальные задания.

В отчете на сайте опишите процедуру отбора: какой запрос использовали для поиска белков (кроме указания организма можете добавить дополнительные условия на свое усмотрение), сколько находок получили, чем приглянулся выбранный белок.

2. Информация о белке

Со страницы со списком находок перейти на страницу белка можно по ссылке в столбце Entry (это, на самом деле UniProt AC).

Пример отчетного файла ~/term2/pr7/protein_info.txt:

Database:Swiss-Prot
ID:DDRB_DEIRA
AC:Q9RY80,C6SUN7
Version:85
Name:Single-stranded DNA-binding protein DdrB
TaxID:243230
INSDC:AE000513,BK006794
Length:188
MW:20830

Комментарии:

При составлении файлов вам могут пригодиться команды bash. Ведь можно скачать запись о вашем белке на kodomo и работать с ней в командной строке. Например, у некоторых в записи приведено много ссылок на INSDC. Получить их список в виде одной строки через запятую может быть проще с помощью команд bash (grep, cut, paste/tr), чем ручным копированием (а перепечатывать любые идентификаторы вручную я крайне не рекомендую, ошибиться очень просто).

Скачать запись поможет уже знакомый вам wget:

wget 'https://rest.uniprot.org/uniprotkb/P0A6P9.txt'

На странице отчета приведите краткое описание белка, его функции. Нужно привести перевод названия белка. Отнеситесь к переводу ответственно, он должен соответствовать нормам русского языка. Например, 'ДНК гидролаза' – неправильное название (это неграмотная калька с английского, в русском так слова не связываются), правильное название – 'ДНК-гидролаза' (допустимо 'гидролаза ДНК', но это скорее описание, чем название). Можете привести какие-то интересные данные, которые узнали из записи, но дублировать всю информацию из файла protein_info.txt не надо.

3. Кластеры похожих белков

Для своего белка найдите кластеры UniRef. Для каждого белка UniProtKB есть ровно по одному кластеру в UniRef50, UniRef90 и UniRef100. Есть разные способы их найти. Разберитесь сами. Подсказка: в строке поиска в начале страницы можно выбрать базу, по которой искать, а еще есть вариант с формой "Retrieve/ID mapping". Не советую искать кластеры на отформатированной странице белка, на ней могут быть указаны не все кластеры, особо любопытные могут разобраться, в каких случаях.

Обязательная часть: файл ~/term2/pr7/protein_clusters.txt. Пример файла:

ID:UniRef100_Q9RY80
Size:1
Length:188
Name:Single-stranded DNA-binding protein DdrB

ID:UniRef90_Q9RY80
Size:4
Length:188
Name:Single-stranded DNA-binding protein DdrB

ID:UniRef50_Q9RY80
Size:76
Length:188
Name:Single-stranded DNA-binding protein DdrB

Комментарии:

Дополнительно: в отчете на сайте можете порассуждать, позволяют ли размеры (количество белков, не длина последовательности) кластеров UniRef для вашего белка судить о его распространенности, о консервативности его последовательности и т.д. Но для зачета практикума отражать это задание в отчете на сайте не требуется.

4. Поисковые запросы

Техническая задача – научиться пользоваться расширенным поиском по UniProt, правильно составлять запросы (и убедить меня, что вы научились). Биологическая задача – получить информацию о своем белке для отчета. Самодеятельность приветствуется. Например, можно поискать белки с таким же (или схожим) описанием (description) в других таксонах, чтобы попытаться оценить распространенность белка. Оцениваться будет правильность составления запросов (информацию нужно искать только в правильных полях, чтобы избежать ложных находок), их разнообразность (поиск по разным полям, разные способы логического объединения частей запроса и т.д.), фантазия и изобретательность при постановке вопроса и составлении запроса.

Совсем не лишним будет сначала поизучать, на что вообще способен расширенный поиск, какие возможности он предоставляет, посмотреть примеры запросов на страницах с помощью.

Задание специально сформулировано максимально расплывчато. С одной стороны, не хочется ограничивать вашу фантазию (а совсем даже наоборот). С другой стороны, хочется сразу видеть, если кто-то вдохновлялся чужой работой.

В отчете на сайте приведите запросы, количество находок по ним и, главное, опишите, для чего вы эти запросы вводили, какие выводы они позволили вам сделать. Если идея была, но вывода, по каким-то причинам, не получилось, так и напишите, отрицательный результат – это тоже результат. Только, конечно, надо указать, почему у вас не получается сделать содержательный вывод. Для зачета задания с минимальным баллом достаточно привести 3 разнообразных запроса и количество находок по ним, без обсуждения. Не приводите много однотипных запросов! Если их результаты нужны для обсуждения, то просто напишите, что-то вроде "аналогично было получено ...".

5. [дополнительно] Поиск источника аннотации

Выберете 3 факта про свой белок из записи, для которых указаны (желательно разные) коды ECO. Разберитесь, что означает указанный код. Проследите аннотации до источника – записи в другой базе, внешнего сервиса/программы, публикации и т.д. Опишите находки в отчете. Как вы считаете, можно ли доверять указанным аннотациям?

2022/2/pr7 (последним исправлял пользователь is_rusinov 2023-03-28 19:43:21)