Учебная страница курса биоинформатики,
год поступления 2017
Практикум 5. UniProt
Обратите внимание, в таблице поменялись (вечером 13 марта) UniProt AC выданных белков! Если только начинаете выполнять задание, используйте новый AC. Если уже много сделали со старым - можно не менять.
Формат отчета: HTML страница, со ссылкой со страницы семестра, содержащая:
Таблицу со следующей информацией о своём белке: UniProt ID, UniProt AC, RefSeq ID, PDB ID, длина, молекулярная масса, рекомендуемое UniProt название. Комментарий к таблице.
Описание кластеров UniRef для своего белка.
Результаты сеансов поиска в UniProt.
- Результаты дополнительных заданий (если вы их делали).
Срок выполнения без потерь баллов – 19 марта, крайний срок – 26 марта.
Задания
В таблице найдите UniProt AC своего белка. На сайте UniProt найдите соответствующую запись. Откройте запись UniProt в текстовом формате (на странице записи: кнопка FORMAT → Text). В поле DE найдите рекомендуемое название (RecName), в поле DR — идентификаторы PDB и RefSeq. В отчёте необходимо указать идентификаторы всех указанных записей PDB и RefSeq Protein. Указания: 1) идентификатор RefSeq Protein стоит в соответствующей строке DR сразу после слова "RefSeq", (далее указан идентификатор нуклеотидной последовательности, вам пока не нужный); 2) длину в аминокислотных остатках и молекулярную массу (MW) в дальтонах см. в поле SQ в конце аннотации (перед последовательностью). В комментарии укажите всё, заслуживающее внимания; в частности, для всего ли белка известна структура и сколькими цепями она представлена в записях PDB.
Для своего белка найдите и опишите в отчёте включающие его кластеры UniRef50, UniRef90 и UniRef100: идентификатор кластера, сколько белков в кластере, ещё что-то, заслуживающее внимания.
Проведите несколько сеансов поиска в UniProt и опишите их результаты. Для каждого поиска необходимо указать текст запроса (появляется в верхнем окошке), сколько нашлось белков, сколько из них — из раздела Reviewed (т.е. Swiss-Prot), другие моменты, заслуживающие внимания. NB: поиск "по названию" везде означает поиск не по всему тексту записи, а только по полю DE.
Поиск по рекомендованному названию своего белка. Если рекомендованных названий два (полное и краткое), то желательно провести оба поиска, но "по минимуму" можно ограничиться кратким названием. Если рекомендованного названия (RecName) нет вообще, используйте Submitted name (SubName), или несколько отдельных слов из него, соединяя их оператором AND (если поиск по всему SubName выдаёт только один белок, то попробовать отдельные слова или словосочетания нужно обязательно).
- Поиск по тому же названию среди белков своего организма.
Поиск по тому же названию среди белков из организмов того же семейства (family). Таксономию организма можно узнать в поле OC, какое из названий соответствует именно семейству — пользуясь базой NCBI Taxonomy.
- Поиск по тому же названию среди белков из организмов того же отдела (phylum).
- Поиск по одному из следующих названий: гемоглобин, альбумин, цитохром, лизоцим, актин, миозин, тубулин, гомеобокс, гистон, аллерген в трёх вариантах: без ограничения на организмы и в любых двух из следующих таксонов: животные (Metazoa), позвоночные (Vertebrata), членистоногие (Arthropoda), зелёные растения (Viridiplantae), грибы (Fungi), бурые водоросли (Phaeophyceae), инфузории (Ciliophora). (Естественно, нужно сначала определить английское написание соответствующего названия).
Два поиска: один по названию "трипсин", другой — позволяющий определить, сколько среди находок первого поиска белков, аннотированных как ингибиторы трипсина (подоплёка тут такая: ингибитор трипсина — это НЕ трипсин, но при поиске на слово "трипсин" тоже находится, поскольку его описание включает это слово).
(* дополнительно) Найдите запись (записи) RefSeq Protein, соответствующие своему белку, и опишите, чем отличается информация, предоставляемая записью RefSeq, от информации UniProt.
(* дополнительно) Изучите и опишите историю изменений какой-нибудь записи UniProt (кнопка History).
(* дополнительно) Приведите примеры того, как представлены в записи UniProt одно из следующих явлений: нестандартные аминокислотные остатки (селеноцистеин или пирролизин), посттрансляционная модификация (фосфорилирование, гликозилирование, ...), альтернативный сплайсинг, дисульфидные связи, варианты последовательности. Указание: используйте help на сайте UniProt.