Учебная страница курса биоинформатики,
год поступления 2021
Практикум 7. UniProt
При записи в очередь номер практикума 7.
Файлы на kodomo должны иметь указанные имена, а не лежать внутри public_html.
Дедлайны: 01:00 AM 6 апреля (мягкий) и 01:00 AM 13 апреля (жесткий). Добавил один день, чтобы вы могли задать вопрос по домашнему заданию после занятия и успели его доделать вечером.
Отчет в формате HTML-страницы об изучаемом белке будет один, после следующего занятия. Результаты данного практикума будут использоваться в отчете. Но проверяться они будут в другой форме (файлы специального формата на kodomo для упрощения проверки).
Отчет за следующий практикум должен будет содержать исследование выданного вам белка и протеома содержащего его организма средствами UniProt и не только. Предполагается, что всю необходимую информацию про белок вы получите в рамках выполнения данного практикума (а протеомом займетесь в следующем). Поэтому при выполнении заданий думайте, что может быть интересно для будущего отчета. Советую сразу начать писать его черновик.
Некоторые задания сформулировал расплывчато. Расчитываю, это не поставит вас в тупик, а, наоборот, подстегнет фантазию и креативность. Из-за этого мне сложно предсказать, какие функции UniProt вам понадобятся, и с какими проблемами вы столкнетесь. Любые вопросы приветствуются!
— ИР
Задания
1. Найдите литературу о выданном белке и организме
Список белков в таблице. Если с белком какие-то проблемы, то можно взять резервный, но нужно сообщить мне (ИР), чтобы я поменял белок в списке.
Организм – та бактерия или архея, в геноме которой выданный белок закодирован.
Создайте заготовку HTML-страницы с отчетом за следующий практикум. В этом практикуме на ней нужно будет привести только совсем краткое введение, содержащее самые общие сведения о выданном белке и организме (по паре предложений, много текста приводить не нужно). Введение должно быть оформленно по правилам научных текстов, т.е. должны быть ссылки на источник информации, они должны быть в одном из принятых форматов (как в научных статьях), причем источники должны быть достоверными. Странички в базах данных и википедия не являются достоверными источниками информации, потому что не рецензируются учеными. Читать википедию можно, но ссылаться на нее нельзя, вместо этого ищите рецензируемый источник найденной информации, часто он указан. Только обязательно надо убедиться, что в указанной статье действительно есть нужная инфомация!
При записи в очередь на проверку практикума нужно будет указать только адрес заготовки HTML-страницы. Остальные задания предполагают создание файлов на kodomo с фиксированными именами, которые буду проверять автоматически.
2. Найти информацию о своем белке в UniProt
Чтобы найти белок в UniProt вам нужно воспользоваться формой "Retrieve/ID mapping". В первое окошко нужно ввести выданный идентификатор белка, дальше выбрать правильные значения в from и to. После нажатия submit должна появиться таблица со списком белков. В вашем случае белок должен быть один. Если записей все-таки несколько, обязательно укажите это в отчете и дальше работайте только с одной из них (на ваше усмотрение). Перейти на страницу белка можно по ссылке в столбце Entry (это, на самом деле UniProt AC).
UniProt по умолчанию показывает отформатированные странички, которые могут быть удобны, но мешают разобраться в устройстве записей UniProt. Поэтому переходим в текстовый режим (Format → Text, либо дописав .txt в конец адреса страницы). Теперь перед вами запись о белке в формате UniProt.
Проверять буду содержимое файла ~/term2/pr7/protein_info.txt. Проверка будет автоматическая на столько, на сколько у меня получится. Поэтому строго соблюдайте описанный ниже формат. Файл (и все остальные тоже) должен быть с переносами строк в формате Unix.
Пример отчетного файла ~/term2/pr7/protein_info.txt:
ID:DDRB_DEIRA AC:Q9RY80,C6SUN7 Name:Single-stranded DNA-binding protein DdrB Organism:Deinococcus radiodurans (strain ATCC ... B-1422) TaxID:243230 INSDC:AE000513,BK006794 PDB:4HQB,4NOE Length:188 аа MW:20830 Da
Комментарии:
Name – рекомендуемое название (RecName) или "Submitted name" (SubName), если рекомендованного названия пока нет. Искать нужно в поле DE. Название привести в файле без информации об источнике аннотации (то, что в фигурных скобках), без EC, без технических тегов (вроде Full=) и лишних пробельных символов.
Organism – содержимое поля OS. Иногда это поле разбито на несколько строк, в этом случае из них нужно сделать одну, склеив строки через один пробел (предварительно убрав "OS "). В примере заменил часть строки на ... исключительпо для того, чтобы она не переносилась на следующую строку при отображении в браузере, вам так делать не нужно.
- Все идентификаторы и коды доступа одного типа должны быть записаны в одну строку через запятую без пробелов в том порядке, в котором они указаны в записи.
INSDC – в записи ссылки на нуклеотидные архивы называются EMBL, нужны только АС нуклеотидных записей. Идентификатор нуклеотидной записи EMBL стоит в соответствующей строке DR сразу после слова "EMBL", (далее указан идентификатор белковой записи).
Length и MW — обязательно указание единиц измерения.
При получении списка идентификаторов PDB обратите внимание на сопровождающую их информацию. Определите, для всего ли белка известна структура, и как она представлена в записях PDB. В файле отражать не нужно, но понадобится в отчете в следующем практикуме. Так что разберитесь, где искать эту информацию.
При составлении файлов вам могут пригодиться команды bash. Ведь можно скачать запись о вашем белке на kodomo и работать с ней в командной строке. Например, у некоторых в записи приведено множество ссылок на PDB. Получить их список в виде одной строки через запятую будет значительно проще с помощью команд bash (grep, cut, paste/tr), чем ручным копированием (а перепечатывать любые идентификаторы вручную я крайне не рекомендую, ошибиться очень просто).
Скачать запись поможет уже знакомый вам wget:
wget 'https://www.uniprot.org/uniprot/P0A6P9.txt'
3. Изучение кластеров UniRef
Для своего белка найдите кластеры UniRef. Для каждого белка UniProtKB есть ровно по одному кластеру в UniRef50, UniRef90 и UniRef100. Есть разные способы их найти. Разберитесь сами. Подсказка: в строке поиска в начале страницы можно выбрать базу, по которой искать, а еще есть вариант с уже знакомой вам формой "Retrieve/ID mapping". Не советую искать кластеры на отформатированной странице белка, на ней могут быть указаны не все кластеры, особо любопытные могут разобраться, в каких случаях.
Проверять буду файл ~/term2/pr7/protein_clusters.txt. Пример файла:
ID:UniRef100_Q9RY80 Size:1 Length:188 Name:Single-stranded DNA-binding protein DdrB ID:UniRef90_Q9RY80 Size:4 Length:188 Name:Single-stranded DNA-binding protein DdrB ID:UniRef50_Q9RY80 Size:76 Length:188 Name:Single-stranded DNA-binding protein DdrB
Комментарии:
- Информация про кластеры с разным уровнем идентичности должна отделяться пустой строкой, порядок кластеров важен (100, 90 и 50).
- Название кластера не должно содержать "Cluster: " в начале и процента идентичности в скобка в конце.
Попробуйте сделать выводы, например, о распространенности белка, по размеру кластеров и/или их таксономическому охвату. Разберитесь, является ли изучаемый белок сидом (seed) в этих кластерах или репрезентативной последовательностью (representative). Подумайте, о чем это может говорить. В файле это отражать не нужно, но может понадобиться в отчете за следующий практикум.
4. Сеансы поиска в UniProt
Техническая задача – научиться пользоваться расширенным поиском по UniProt, правильно составлять запросы (и убедить меня, что вы научились). Биологическая задача – получить информацию о своем белке для отчета за следующий практикум. Самодеятельность приветствуется. В частности можно поискать белки с таким же (или схожим) описанием (description) в других таксонах, чтобы, например, определить, насколько это распространенный белок. Самое большое внимание буду уделять тому, правильно ли составлен запрос (информацию нужно искать только в правильных полях, чтобы избежать ложных находок), насколько запросы разнообразные (поиск по разным полям, разные способы логического объединения частей запроса и т.д.), фантазию и изобретательность при постановке вопроса и составлении запроса.
Совсем не лишним будет сначала поизучать, на что вообще способен расширенный поиск, какие возможности он предоставляет, посмотреть примеры запросов на страницах с помощью.
Задание специально сформулированно максимально расплывчато. С одной стороны, не хочется ограничивать вашу фантазию (а совсем даже наоборот). С другой стороны, хочется сразу видеть, если кто-то вдохновлялся чужой работой.
Проверять буду файл ~/term2/pr7/uniprot_queries.txt. Пример файла:
(name:enolase NOT name:inhibitor) taxonomy:"Escherichia coli [562]" Swiss-Prot:21 Total:154 name:enolase name:inhibitor taxonomy:"Escherichia coli [562]" Swiss-Prot:0 Total:0
Комментарии:
- Каждому запросу должно соответствовать 3 строки, сначала строка запроса, потом количество находок в Swiss-Prot, потом общее количество находок.
- Запросы должны быть отделены друг от друга одной пустой строкой.
- Не надо приводить однотипных запросов, достаточно 3 разнообразных, демонстрирующих, что основными навыками их составления вы овладели.
- Не запрещено добавлять в запрос "reviewed:yes", просто в этом случае общее количество находок будет совпадать с количеством находок в Swiss-Prot.
- Не запрещено приводить запросы, по которым не нашлось записей, такие запросы тоже дают важную информацию. Только убедитесь, что отсутствие находок не связано с ошибкой в запросе!
5. [дополнительное] История изменений записи UniProt
Для каждой записи хранится история её изменений, которую можно посмотреть, нажав на кнопку History. Попробуйте найти в истории записи что-нибудь интересное, что будет не лишним упомянуть в отчете за следующий практикум. За интересную находку в истории записи можно будет получить бонусные баллы.
6. [дополнительное] Подробнее о формате записи UniProtKB
Можете подробнее изучить внутренний формат поля СС, или значения ключей в поле FT. Если получится найти какую-то интересную информацию о своем белке, указанную в этих полях, и разобраться, каким образом подобная информация указывается в записях UniProtKB (может быть несколько способов), то можете добавить это в отчет за следующий практикум. Действительно интересные находки добавят вам бонусных баллов.