Учебная страница курса биоинформатики,
год поступления 2012
Методические указания
- Программа entret пакета EMBOSS служит для получения полной записи из банка данных. Формат обращения:
entret <код банка>:<AC или ID записи>
Например:
entret sw:pax6_human
Все команды EMBOSS понимают такой адрес последовательности. См. USA - Uniform Sequence Address в описании EMBOSS.
Большие и маленькие буквы в идентификаторах команды EMBOSS не различают.
Используйте команду showdb для того, чтобы узнать какие базы данных подключены и как выглядит их код.
Для получения содержимого поля записи удобно использовать grep с указанием метки поля и того, что она начинается в первой позиции. Пример:
grep ^ID pax6_human
выдаст строчку с меткой ID ("^" - указание на то, что слово ID должно стоять в начале строки)
- Найдите базу Uniprot пользуясь google.
Используйте Advanced Search в базе данных UniprotKB.
Выберите поле, например, Taxonomy. И термин для поиска, например, Bacillus. Нажмите Add&Search и опять Advanced Search для добавления дополнительного условия поиска. Например, поле Protein name и термин Ribosomal для поиска рибосомальных белков.
В окошке запроса увидите как выглядит ваш запрос. В такой форме запрос можно писать сразу, не используя Advanced Search.
Для выполнения задания ограничьтесь находками из полностью секвенированных геномов - кнопка Show only entries from a complete proteome set. Выбирайте ортологов - хотя бы одного - из базы данных TrEMBL - кнопка Show only .... or unreviewed (nn) (UniProtKB/TrEMBL) entries.
Помните, что на белковую последовательность из TrEMBL, возможно, не смотрели глаза человека! И поэтому ваши предсказания по сходству с записью из Swissprot могут оказаться более точными, чем в аннотации записи из TrEMBL.