Учебная страница курса биоинформатики,
год поступления 2022
Практикум 7. UniProt
Отчет должен включать страничку на сайте и два файла на kodomo. Файлы будут проверяться скриптами, поэтому они должны иметь указанные имена (а не лежать внутри public_html, например) и форматы. Проставлять ссылки на эти файлы со страницы отчета не нужно. При записи в очередь нужно указать адрес страницы с отчетом. Номер практикума 7.
Дедлайны: 11:00 PM 29 марта (мягкий) и 01:00 AM 5 апреля (жесткий). Добавил один день, чтобы вы могли задать вопрос по домашнему заданию после занятия и успели его доделать вечером.
1. Выбор белка
С помощью расширенного поиска на сайте UniProt найдите записи о белках своей бактерии/археи (той, про которую писали обзор). Выберите один из белков для анализа. Четких критериев нет, выбирайте любой, который понравился. Однако, белок должен быть достаточно хорошо аннотирован, чтобы для него имели смысл остальные задания.
В отчете на сайте опишите процедуру отбора: какой запрос использовали для поиска белков (кроме указания организма можете добавить дополнительные условия на свое усмотрение), сколько находок получили, чем приглянулся выбранный белок.
2. Информация о белке
Со страницы со списком находок перейти на страницу белка можно по ссылке в столбце Entry (это, на самом деле UniProt AC).
UniProt по умолчанию показывает отформатированные странички, которые могут быть удобны, но мешают разобраться в устройстве записей UniProt. Поэтому переходим в текстовый режим (Dowload → Text). Теперь перед вами запись о белке в формате UniProt.
Проверять буду содержимое файла ~/term2/pr7/protein_info.txt. Проверка будет автоматическая, поэтому строго соблюдайте описанный ниже формат. Файл (и все остальные тоже) должен быть с переносами строк в формате Unix.
Пример отчетного файла ~/term2/pr7/protein_info.txt:
Database:Swiss-Prot ID:DDRB_DEIRA AC:Q9RY80,C6SUN7 Version:85 Name:Single-stranded DNA-binding protein DdrB TaxID:243230 INSDC:AE000513,BK006794 Length:188 MW:20830
Комментарии:
Database – Swiss-Prot или TrEMBL.
Version – версия записи, а не последовательности. Нужно для того, чтобы я проверял ту же версию записи, которую использовали вы.
Name – рекомендуемое название (RecName) или "Submitted name" (SubName), если рекомендованного названия пока нет. Искать нужно в поле DE. Название привести в файле без информации об источнике аннотации (то, что в фигурных скобках), без EC, без технических тегов (вроде Full=) и лишних пробельных символов.
Все идентификаторы и коды доступа одного типа должны быть записаны в одну строку через запятую без пробелов в том порядке, в котором они указаны в записи.
TaxID – идентификатор таксона организма в базе NCBI Taxonomy (поле OX).
INSDC – в записи ссылки на нуклеотидные архивы называются EMBL, нужны только АС нуклеотидных записей. Идентификатор нуклеотидной записи EMBL стоит в соответствующей строке DR сразу после слова "EMBL", (далее указан идентификатор предсказанной открытой рамки считывания).
Length и MW — без указания единиц измерения.
При составлении файлов вам могут пригодиться команды bash. Ведь можно скачать запись о вашем белке на kodomo и работать с ней в командной строке. Например, у некоторых в записи приведено много ссылок на INSDC. Получить их список в виде одной строки через запятую может быть проще с помощью команд bash (grep, cut, paste/tr), чем ручным копированием (а перепечатывать любые идентификаторы вручную я крайне не рекомендую, ошибиться очень просто).
Скачать запись поможет уже знакомый вам wget:
wget 'https://rest.uniprot.org/uniprotkb/P0A6P9.txt'
На странице отчета приведите краткое описание белка, его функции. Нужно привести перевод названия белка. Отнеситесь к переводу ответственно, он должен соответствовать нормам русского языка. Например, 'ДНК гидролаза' – неправильное название (это неграмотная калька с английского, в русском так слова не связываются), правильное название – 'ДНК-гидролаза' (допустимо 'гидролаза ДНК', но это скорее описание, чем название). Можете привести какие-то интересные данные, которые узнали из записи, но дублировать всю информацию из файла protein_info.txt не надо.
3. Кластеры похожих белков
Для своего белка найдите кластеры UniRef. Для каждого белка UniProtKB есть ровно по одному кластеру в UniRef50, UniRef90 и UniRef100. Есть разные способы их найти. Разберитесь сами. Подсказка: в строке поиска в начале страницы можно выбрать базу, по которой искать, а еще есть вариант с формой "Retrieve/ID mapping". Не советую искать кластеры на отформатированной странице белка, на ней могут быть указаны не все кластеры, особо любопытные могут разобраться, в каких случаях.
Обязательная часть: файл ~/term2/pr7/protein_clusters.txt. Пример файла:
ID:UniRef100_Q9RY80 Size:1 Length:188 Name:Single-stranded DNA-binding protein DdrB ID:UniRef90_Q9RY80 Size:4 Length:188 Name:Single-stranded DNA-binding protein DdrB ID:UniRef50_Q9RY80 Size:76 Length:188 Name:Single-stranded DNA-binding protein DdrB
Комментарии:
Информация про кластеры с разным уровнем идентичности должна отделяться пустой строкой, порядок кластеров важен (100, 90 и 50).
Name – название кластера, оно не должно содержать "Cluster: " в начале.
Length – длина репрезентативной последовательности.
Дополнительно: в отчете на сайте можете порассуждать, позволяют ли размеры (количество белков, не длина последовательности) кластеров UniRef для вашего белка судить о его распространенности, о консервативности его последовательности и т.д. Но для зачета практикума отражать это задание в отчете на сайте не требуется.
4. Поисковые запросы
Техническая задача – научиться пользоваться расширенным поиском по UniProt, правильно составлять запросы (и убедить меня, что вы научились). Биологическая задача – получить информацию о своем белке для отчета. Самодеятельность приветствуется. Например, можно поискать белки с таким же (или схожим) описанием (description) в других таксонах, чтобы попытаться оценить распространенность белка. Оцениваться будет правильность составления запросов (информацию нужно искать только в правильных полях, чтобы избежать ложных находок), их разнообразность (поиск по разным полям, разные способы логического объединения частей запроса и т.д.), фантазия и изобретательность при постановке вопроса и составлении запроса.
Совсем не лишним будет сначала поизучать, на что вообще способен расширенный поиск, какие возможности он предоставляет, посмотреть примеры запросов на страницах с помощью.
Задание специально сформулировано максимально расплывчато. С одной стороны, не хочется ограничивать вашу фантазию (а совсем даже наоборот). С другой стороны, хочется сразу видеть, если кто-то вдохновлялся чужой работой.
В отчете на сайте приведите запросы, количество находок по ним и, главное, опишите, для чего вы эти запросы вводили, какие выводы они позволили вам сделать. Если идея была, но вывода, по каким-то причинам, не получилось, так и напишите, отрицательный результат – это тоже результат. Только, конечно, надо указать, почему у вас не получается сделать содержательный вывод. Для зачета задания с минимальным баллом достаточно привести 3 разнообразных запроса и количество находок по ним, без обсуждения. Не приводите много однотипных запросов! Если их результаты нужны для обсуждения, то просто напишите, что-то вроде "аналогично было получено ...".
5. [дополнительно] Поиск источника аннотации
Выберете 3 факта про свой белок из записи, для которых указаны (желательно разные) коды ECO. Разберитесь, что означает указанный код. Проследите аннотации до источника – записи в другой базе, внешнего сервиса/программы, публикации и т.д. Опишите находки в отчете. Как вы считаете, можно ли доверять указанным аннотациям?