Учебная страница курса биоинформатики,
год поступления 2020
Практикум 8. UniProt
Дедлайны: 01:00 AM 14 апреля (мягкий) и 01:00 AM 21 апреля (жесткий). Добавил один день, чтобы вы могли задать вопрос по домашнему заданию после занятия и успели его доделать вечером.
У меня есть желание сделать отчеты по практикумам в этом блоке чуть менее бессмысленными (для вас) и беспощадными (для меня). Поэтому отчет в формате HTML-страницы будет один в конце блока, но составлять вы его будете в течение всех занятий. По результатам данного практикума нужно будет начать создавать финальный отчет, но он не обязан быть полностью оформленным. Пока будет достаточно формального наличия информации, перечисленной ниже. Но для вашего же блага советую сразу стараться писать осмысленный текст. И да, хорошо бы в начале страницы указать, что она еще не завершена, чтобы случайно заблудшие не шарахались.
Задания сформулировал расплывчато. Расчитываю, это не поставит вас в тупик, а, наоборот, подстегнет фантазию и креативность. Из-за этого мне сложно предсказать, какие функции UniProt вам понадобятся, и с какими проблемами вы столкнетесь. Поэтому подсказок и инструкций почти нет. Любые вопросы приветствуются!
— ИР
Формат отчета: заготовка HTML страницы с отчетом за блок, содержащая:
Краткое связное описание белка, его функции, каких-либо интересных особенностей. Обязательны ссылки на авторитетные (т.е. рецензируемые учеными) источники. Копирование и дословный перевод запрещены, нужно все писать своими словами. Пока оценивать буду формально – соответствие правилам цитирования и объем (но это не значит, что чем больше, тем лучше; буду штрафовать как халтуру, так и обилие воды).
Аналогично про бактерию/архею, которой принадлежит белок. В частности, стоит указать её таксономическое положение (кратко), чем она могла приглянуться экспериментаторам (зачем секвенировали) и т.д.Таблицу (или ещё что-то, важно содержание, а не форма) со следующей информацией о своём белке: раздел UniProtKB (Swiss-Prot или TrEMBL), UniProt ID, UniProt AC, EMBL AC нуклеотидной записи, в которой он закодирован, PDB ID (если их много, то лучше дать ссылку на файл со списком), длина, молекулярная масса, рекомендуемое UniProt название. Так же нужно написать, известна ли структура для белка целиком, или только для какого-то его фрагмента.
Результаты поисковых запросов к UniProt (и сами запросы текстом, можете сразу подумать, как это оформить, чтобы дико не смотрелось в финальном отчете), которые вы провели в процессе выполнения задания 2.
- [дополнительно] Интересные факты из истории записи, в итоговом отчете их как-то придется вплести в общее повествование. Литературную ценность текста оценивать буду в конце блока.
- [дополнительно] Описание того, каким образом в записи UniProtKB указана какая-то интересная вам информация о белке. Будет хорошо, если это будет что-то из полей FT или СС, но все на ваше усмотрение. Литературную ценность текста оценивать буду в конце блока.
Задания
1. Найти информацию о своем белке в UniProt
Список белков в таблице. Если с белком какие-то проблемы, то можно взять резервный, но нужно сообщить мне (ИР), чтобы я поменял белок в списке.
Чтобы найти белок в UniProt вам нужно воспользоваться формой "Retrieve/ID mapping". В первое окошко нужно ввести выданный идентификатор белка, дальше выбрать правильные значения в from и to. После нажатия submit должна появиться таблица со списком белков. В вашем случае белок должен быть один. Если записей все-таки несколько, обязательно укажите это в отчете и дальше работайте только с одной из них (на ваше усмотрение). Перейти на страницу белка можно по ссылке в столбце Entry (это, на самом деле UniProt ID).
UniProt по умолчанию показывает отформатированные странички, которые могут быть удобны, но мешают разобраться в устройстве записей UniProt. Поэтому переходим в текстовый режим (Format → Text, либо дописав .txt в конец адреса страницы). Теперь перед вами запись о белке в формате UniProt.
- Найдите все, что нужно для заполнения таблицы 1.
В поле DE найдите рекомендуемое название (RecName) или "Submitted name" (SubName), если рекомендованного названия пока нет.
В поле DR – идентификаторы PDB и EMBL. В отчёте необходимо указать идентификаторы всех указанных записей PDB и всех нуклеотидных записей EMBL (на самом деле ENA/GenBank/DDBJ). Идентификатор нуклеотидной записи EMBL стоит в соответствующей строке DR сразу после слова "EMBL", (далее указан идентификатор белковой записи).
В поле SQ – длину в аминокислотных остатках и молекулярную массу (MW) в дальтонах.
- Определите, для всего ли белка известна структура, и как она представлена в записях PDB.
Еще нужно будет найти информацию о белке и организме для краткого введения. Можно поискать статьи, или погулять по ссылкам со страницы белка, или еще как-то погуглить. Вы сами такое уже должны уметь. Главное, информация должна быть достоверной, на источники должны быть ссылки, не должно быть плагиата ни в каком виде. Статьи в википедии читать можно, но ссылки на них давать нельзя
2. Провести несколько сеансов поиска в UniProt
Техническая задача – научиться пользоваться расширенным поиском по UniProt, правильно составлять запросы (и убедить меня, что вы научились). Биологическая задача – получить информацию о своем белке для отчета. Самодеятельность приветствуется. В частности можно поискать белки с таким же (или схожим) описанием (description) в других таксонах, чтобы, например, определить, насколько это распространенный белок. Самое большое внимание буду уделять тому, правильно ли составлен запрос (информацию нужно искать только в правильных полях, чтобы избежать ложных находок), насколько запросы разнообразные (поиск по разным полям, разные способы логического объединения частей запроса и т.д.), фантазию и изобретательность при постановке вопроса и составлении запроса.
Совсем не лишним будет сначала поизучать, на что вообще способен расширенный поиск, какие возможности он предоставляет, посмотреть примеры запросов на страницах с помощью.
Задание специально сформулированно максимально расплывчато. С одной стороны, не хочется ограничивать вашу фантазию (а совсем даже наоборот). С другой стороны, хочется сразу видеть, если кто-то вдохновлялся чужой работой. Если обнаружу списывание, заставлю всё переделывать.
3. [дополнительное] Изучите историю изменений записи UniProt
Для каждой записи хранится история её изменений, которую можно посмотреть, нажав на кнопку History. Постарайтесь найти в истории записи что-нибудь интересное, что будет не лишним упомянуть в отчете по белку.
4. [дополнительное] Подробнее изучите формат записи UniProtKB
В частности, можно изучить внутренний формат поля СС, или значения ключей в поле FT. Вам нужно будет найти какую-то интересную информацию о своем белке, указанную в записи, и описать, каким образом подобная информация указывается в записях UniProtKB. Наверно, в финальном отчете это можно будет оформить в качестве краткого лирического отступления. Главное, чтобы было интересно читателю и органично смотрелось в отчете. Но, опять же, литературную ценность буду оценивать в конце блока.