Учебная страница курса биоинформатики,
год поступления 2019
Практикум 9. UniProt Proteomes. EMBOSS
Дедлайны: 02:00 AM 14 апреля (мягкий) и 02:00 AM 21 апреля (жесткий).
Формат отчета: HTML страница, со ссылкой со страницы семестра.
Задания
1. Сравнение протеомов
Ваша задача – сравнить доли, которые составляют белки некоторой "функциональной группы" в протеоме вашей бактерии/археи (той, которую Вы изучали в конце прошлого семестра) и референсном протеоме наиболее хорошо изученной бактерии Escherichia coli strain K-12.
Если для вашей бактерии/археи в базе отсутствует протеом – возьмите протеом наиболее близкого организма. Не берите протеомы со статусами "excluded" или "redundant". Для таких протеомов никаких аннотаций белков Вы не найдете.
Первым делом Вам надо будет выяснить и привести в отчете ID протеомов, количество белков в каждом из них и количество белков в базе Swiss-Prot (это можно грубо считать мерой изученности протеома и достоверности аннотаций белков).
"Функциональных групп" будет 3:
- трансмембранные белки;
- ферменты (а точнее, белки, которым присвоен какой-нибудь код фермента EC);
- функциональная группа на ваш выбор.
Для поиска трансмембранных белков предлагается использовать Subcellular location > Transmembrane в конструкторе запросов. Для поиска ферментов – Function > Enzyme classification [EC]. Если Вы сможете разобраться, по каким полям в итоге происходит поиск, и укажете в отчете, как Вы это узнали, то получите бонусные баллы.
В качестве третьей группы можно придумать что угодно, что получится вытащить из аннотаций записей UniProt с помощью поисковых запросов. Примеры: белки, связывающие катион металла; факторы транскрипции; рецепторы; белки, подвергающиеся посттрансляционным модификациям. Оригинальность будет оцениваться (а её отсутствие – штрафоваться). Идеальный вариант – придумать группу так, что она будет интересна специально для вашей бактерии/археи. Например, если бактерия предпочитает жить в луже с большой концентрацией тяжелых металлов, оценить количество белков, связывающих катионы таких металлов.
Для каждой группы в отчете надо привести поисковый запрос к UniProtKB для протеома вашей бактерии/археи (аналогичный для E. coli можно не приводить), количество находок по этому запросу в протеоме вашей бактерии и количество находок в E. coli str. K-12 по аналогичному запросу.
Самый главный пункт отчета по этому заданию – ваши выводы. Они будут составлять примерно половину оценки за успешно выполненное задание. Отчет по заданию должен представлять собой связный текст, из которого будет понятно, что Вы делали, какие результаты получили, какие выводы сделали и почему.
2. Получение зрелых белков одного из коронавирусов
Задание техническое для освоения утилит EMBOSS. Ваша задача – получить последовательность одного из зрелых белков коронавируса, который получается в процессе гидролиза полипротеина 1ab, в формате fasta. Студенты из подгрупп П1 и П3 берут вирус SARS (AC полипротеина: P0C6X7), студенты из подгрупп П2 и П4 – вирус MERS (AC полипротеина: K9N7C7).
Этапы:
скачивание полной записи для полипротеина из UniProt с помощью entret;
получение списка всех участков из таблицы локальных особенностей с ключом "CHAIN" с помощью grep (не достаточно просто выполнить grep "CHAIN" file, надо составить паттерн для поиска так, чтобы находились только строки c "CHAIN" из поля FT);
- сохранение одной выбранной цепи (т.е. зрелого белка) в формате fasta c помощью seqret;
- редактирование строки заголовка fasta, чтобы идентификатор и описание последовательности соответствовали названию и описанию конкретного зрелого белка.
Для каждого этапа надо привести команду, которую Вы исполнили. Результат выполнения пункта 2 надо привести на странице с помощью тега <pre>. Кроме того, должна быть ссылка на итоговый файл fasta. Последний этап можно выполнить с помощью текстового редактора, или с помощью команды descseq, с которой предлагается разобраться самостоятельно.
3. Описание утилиты из пакета EMBOSS
Выберите одну утилиту EMBOSS из списка, разберитесь, для чего она нужна, как ей пользоваться. Приведите краткое описание в отчете, включая примеры использования. В примерах желательно использовать свой белок или свой протеом, если это возможно.
Можно выбрать: infoseq, wordcount, getorf, shuffleseq, transeq, descseq, compseq, fuzzpro, noreturn, makeprotseq, cusp, wossname, tfm, seealso, showdb, featcopy, revseq.