Учебная страница курса биоинформатики,
год поступления 2019
Практикум 8. UniProt
Дедлайны: 02:00 AM 7 апреля (мягкий) и 02:00 AM 14 апреля (жесткий).
Формат отчета: HTML страница, со ссылкой со страницы семестра, содержащая:
Таблицу со следующей информацией о своём белке: раздел UniProtKB (Swiss-Prot или TrEMBL), UniProt ID, UniProt AC, EMBL AC нуклеотидной записи, PDB ID, длина, молекулярная масса, рекомендуемое UniProt название. Комментарий к таблице.
Описание кластеров UniRef для своего белка.
Результаты сеансов поиска в UniProt.
- Результаты дополнительных заданий (если вы их делали).
Задания
1. Найти информацию о своем белке в UniProt
Свой белок – тот, структуру которого Вы изучали в предыдущем блоке. Список здесь.
Чтобы найти белок в UniProt Вам нужно воспользоваться формой "Retrieve/ID mapping". В первое окошко нужно ввести PDB ID своего белка, дальше выбрать from "PDB" to "UniProtKB". После нажатия submit должна появиться таблица со списком белков. В вашем случае белок должен быть один. Если записей все-таки несколько, обязательно укажите это в отчете и дальше работайте только с одной из них, например, самой длинной. Перейти на страницу белка можно по ссылке в столбце Entry (это, на самом деле UniProt ID).
UniProt по умолчанию показывает отформатированные странички, которые могут быть удобны, но мешают разобраться в устройстве записей UniProt. Поэтому переходим в текстовый режим (Format → Text, либо дописав .txt в конец адреса страницы). Теперь перед вами запись о белке в формате UniProt.
- Найдите все, что нужно для заполнения таблицы 1.
В поле DE найдите рекомендуемое название (RecName) или "Submitted name" (SubName), если рекомендованного названия пока нет.
В поле DR – идентификаторы PDB и EMBL. В отчёте необходимо указать идентификаторы всех указанных записей PDB и всех нуклеотидных записей EMBL (на самом деле ENA/GenBank/DDBJ). Идентификатор нуклеотидной записи EMBL стоит в соответствующей строке DR сразу после слова "EMBL", (далее указан идентификатор белковой записи).
В поле SQ – длину в аминокислотных остатках и молекулярную массу (MW) в дальтонах.
- В комментарии к таблице укажите всё, заслуживающее внимания; в частности, для всего ли белка известна структура и сколькими цепями она представлена в записях PDB.
2. Описать кластеры UniRef своего белка
Для каждого белка UniProt есть ровно по одному кластеру в UniRef50, UniRef90 и UniRef100. Есть разные способы их найти. Разберитесь сами. Подсказка: в строке поиска в начале страницы можно выбрать базу, по которой искать, а еще есть вариант с уже знакомой вам формой "Retrieve/ID mapping". Можно поизучать отформатированную страницу белка, но на ней могут быть не все кластеры, особо любопытные могут разобраться, в каких случаях.
Для отчета Вам нужно найти ID, названия и размер кластеров UniRef.
3. Провести несколько сеансов поиска в UniProt
Окно поиска в UniProt поддерживает специальный синтаксис запросов. Для формирования запросов можно воспользоваться кнопкой Advanced, думаю там сами разберетесь, если что – пишите письма и задавайте вопросы.
Для каждого сеанса поиска Вам нужно будет указать текст запроса (появляется в окне поиска после формирования запроса), сколько нашлось белков, сколько из них – из раздела Reviewed (т.е. Swiss-Prot), другие моменты, заслуживающие внимания.
Если в окно поиска ввести какой-нибудь текст нажать Search, то UniProt будет искать каждое слово из запроса во всем тексте каждой из записей. Поиск "по названию" везде ниже означает поиск не по всему тексту записи, а только по полю DE.
Сеансы поиска:
Поиск по рекомендованному названию своего белка. Если рекомендованных названий два (полное и краткое), то можно ограничиться кратким названием. Если рекомендованного названия (RecName) нет вообще, используйте Submitted name (SubName), или несколько отдельных слов из него, соединяя их оператором AND (если поиск по всему SubName выдаёт только один белок, то попробовать отдельные слова или словосочетания нужно обязательно).
- Поиск по тому же названию среди белков организма, указанного в вашей записи.
Поиск по тому же названию среди белков из организмов того же семейства (family). Таксономию организма можно узнать в поле OC, какое из названий соответствует именно семейству – пользуясь базой NCBI Taxonomy.
- Поиск по тому же названию среди белков из организмов того же отдела (phylum).
Поиск по одному из следующих названий: гемоглобин, альбумин, цитохром, лизоцим, актин, миозин, тубулин, гомеобокс, гистон, аллерген (естественно, нужно сначала определить английское написание соответствующего названия) в трёх вариантах: без ограничения на организмы и в любых двух из следующих таксонов: животные (Metazoa), позвоночные (Vertebrata), членистоногие (Arthropoda), зелёные растения (Viridiplantae), грибы (Fungi), бурые водоросли (Phaeophyceae), инфузории (Ciliophora).
Два поиска: один по названию "трипсин", другой – позволяющий отсеять ингибиторы трипсина. Подоплёка тут такая: ингибитор трипсина – это НЕ трипсин, но при поиске на слово "трипсин" тоже находится, поскольку его описание включает это слово.
4. [дополнительное] Изучите историю изменений записи UniProt
Для каждой записи хранится история её изменений, которую можно посмотреть, нажав на кнопку History. Не обязательно описывать историю изменений своей записи, можете выбрать любую, главное, чтобы было интересно (хоть чуть-чуть).
5. [дополнительное] Изучите ключи таблицы локальных особенностей (Feature Table)
Используя Help на сайте UniProt изучите и приведите примеры того, как представлено в записи UniProt одно из следующих явлений:
- нестандартные аминокислотные остатки (селеноцистеин или пирролизин),
- посттрансляционная модификация (фосфорилирование, гликозилирование, ...),
- альтернативный сплайсинг,
- дисульфидные связи,
- варианты последовательности,
- что-нибудь другое интересное из локальных особенностей последовательности.
Есть заготовка для страницы, нужно скопировать её куда-нибудь внутрь тега <body> пустой страницы, например, между header и footer. Внутри заготовки Вам нужно поменять все #FIXME на что-нибудь содержательное. Перед отправкой страницы на проверку запустите валидаторы HTML и CSS. Не буду проверять невалидные страницы.