Учебная страница курса биоинформатики,
год поступления 2023
Практикум 8. UniProt Proteomes, EMBOSS, bash
Отчет должен включать страничку на сайте и два файла c протеомами на kodomo. Файлы будут проверяться скриптами, поэтому они должны иметь указанные имена (а не лежать внутри public_html, например) и форматы. Проставлять ссылки на эти файлы со страницы отчета не нужно. При записи в очередь нужно указать адрес страницы с отчетом. Номер практикума 8.
Дедлайны: 11:00 PM 9 апреля (мягкий) и 01:00 AM 16 апреля (жесткий).
1. Выбор и скачивание протеомов
Цель данного задания – подготовка данных для дальнейшего анализа.
Сначала вам необходимо найти протеом, который наилучшим образом будет описывать бактерию или архею, которой принадлежит выбранный вами белок. Скорее всего, это будет референсный протеом наиболее близкого организма. Вы можете выбрать и нереференсный протеом (но не избыточный или удаленный), если считаете, что он лучше подходит для изучения. Но это надо будет обосновать в отчете. Советую начать с поиска протеомов из того же таксона (вида?), используя расширенный запрос по базе Proteomes.
Второй протеом должен будет выступать в качестве контроля. Это должен быть достаточно хорошо изученный протеом (тоже вероятно референсный) сравнительно близкого организма, который, тем не менее, имеет некоторое существенное отличие, на котором вы и решите сосредоточить сравнение. Например, если у вас патогенная бактерия, неплохим вариантом будет её близкий непатогенный родственник. Если совсем нет идей, можете выбрать один из модельных организмов: E.coli, B.subtilis, M.jannaschii и т.д. Но обоснование выбора будет оцениваться.
Про оба протеома в отчете надо будет привести идентификаторы и общее количество белков. Еще надо будет сравнить степень изученности протеомов. Самая грубая оценка изученности – количество белков протеома в базе Swiss-Prot. Но вы вполне способны получить более хорошую оценку. Не забудьте проверить BUSCO и CPD протеомов, в отчете обязательно нужно отразить, если какое-то из значений вызывает опасения.
Наконец, вам надо скачать белковые записи, принадлежащие протеомам, в формате swiss (это название формата записей UniProtKB в пакете EMBOSS). Проверять буду наличие двух файлов с именами ~/term2/pr8/{ID}.swiss.gz, где {ID} – идентификатор протеома в базе Proteomes (вида UP0xxxxxxxx). Это должны быть запакованные с помощью gzip файлы (расширение .gz не просто так)! Подробнее о том, как эти файлы получить и как с ними работать, в подсказках. Ссылки на файлы в отчете приводить не нужно. Сами файлы можно будет удалить после получения зачета за практикум, чтобы не занимали место.
2. Сравнение протеомов по представленности определенных групп белков
Ваша задача – сравнить доли, которые составляют белки некоторой "функциональной группы" в протеоме вашей бактерии/археи (которой принадлежит изучаемый белок) и в контрольном протеоме.
"Функциональных групп" будет 3:
- трансмембранные белки;
- ферменты;
- функциональная группа на ваш выбор.
В идеале, третья группа белков должна быть связана с тем самым отличием вашей бактерии, по которому вы подбирали контрольный протеом. Как оценить количество белков из каждой группы решайте сами. Это могут быть и соответствующие поисковые запросы к UniProtKB (тогда их обязательно надо указать в отчете), и анализ скачанных в пункте 1 записей с помощью команд bash или скрипта на python (в тогда нужно привести в отчете команды, или дать ссылку на скрипт, jupyter notebook нельзя, проверять мне неудобно). На основе полученных значений необходимо сделать выводы, и привести их в отчете. Пожалуйста, не забывайте и про техническую составляющую. Может ли каким-то образом на полученные значения повлиять источник информации? Первые две группы, на самом деле, выбраны не просто так. По моим представлениям, количество ферментов и количество трансмембранных белков могут по разному зависеть от качества аннотации протеомов. Но это во многом зависит от способа их оценки, который вы выберете. Здравые мысли буду поощрять баллами, неверные предположения буду штрафовать только в крайнем случае (когда очевидная глупость написана).
В данном задании очень поможет более детальное изучение устройства записей UniProtKB, которое хорошо описано здесь.
Задание со звездочкой: по кодам ECO определить, каким образом получены белковые аннотации, по которым вы сравниваете протеомы. Полезна ли эта информация для выводов по сравнению?
3. Сравнение протеомов по ...
Придумайте сами!
Единственное требование – использование при сравнении файлов с протеомами из задания 1. Но необязательно ими ограничиваться. В подсказках напишу несколько примеров того, что можно сравнить. Можете использовать их если не хватит фантазии на что-нибудь свое. Оценивать буду и идею, и реализацию. Обязательно приведите в отчете команды, которые использовали, или скрипты, если дошло дело до их написания. Если у вас появилась идея, но нет представления, как её можно реализовать, спрашивайте. Либо подскажу, как можно это сделать, либо огорчу, что пока у вас не получится это реализовать. Сразу оговорюсь, не пытайтесь использовать сущности, про которые мы вам еще не рассказывали: выравнивания, деревья, сигналы и т.д. Потерпите до соответствующих блоков. Считаю, что вполне можно придумать что-то интересное, что легко проверить на уровне вашего знания bash/python, или с помощью самых базовых программ из пакеты EMBOSS.
Нужно придумать задание на сравнение разных способов поиска одних и тех же белков, например, ферментов. Чтобы было понятно, как сильно могут отличаться результаты, если плохо продумать запрос. Аналогично с grep по swiss.