Учебная страница курса биоинформатики,
год поступления 2021
Практикум 8. UniProt Proteomes, EMBOSS, bash
При записи в очередь номер практикума 8.
Дедлайны: 01:00 AM 13 апреля (мягкий) и 01:00 AM 20 апреля (жесткий). Добавил один день, чтобы вы могли задать вопрос по домашнему заданию после занятия и успели его доделать вечером.
Отчет за практикум – страничка, содержащая исследование выданного вам белка и протеома соответствующего организма предложенными способами. В начале отчета должно быть краткое введение, черновую версию которого вы уже должны были написать. Далее приведите информацию о белке, которую вам удалось получить из его записи (в том числе функцию, наличие 3D-структуры белка или его части, описание кластеров, в которые белок входит, инфомацию, которую вы получили с помощью запросов к UniProtKB, информацию, полученную при выполнении дополнительных заданий 5 и 6, при наличии). Старайтесь написать связный логичный текст, а не просто перечислить сплошным потоком всю требуемую информацию. Порядок, в котором приводить информацию, выбирайте на свое усмотрение. Это касается и отчета в целом.
Кроме информации о белке необходимо привести результаты заданий по сравнению протеомов, описанных ниже. Уделите большое внимание интерпретации результатов и обдумыванию выводов. Это самое главное в любой научной работе.
Задания
0. Оформление информации, полученной в пр. 7
Краткое введение и изучение белка средствами UniProt, см. выше.
1. Выбор и скачивание протеомов
Цель данного задания – подготовка данных для дальнейшего анализа.
Сначала вам необходимо найти протеом, который наилучшим образом будет описывать бактерию или архею, которой принадлежит выданный вам белок. Скорее всего, это будет референсный протеом наиболее близкого организма. Вы можете выбрать и нереференсный протеом (но не избыточный или удаленный), если считаете, что он лучше подходит для изучения. Но это надо будет обосновать в отчете. Советую начать с поиска протеомов из того же таксона (вида?), используя расширенный запрос по базе Proteomes.
Второй протеом должен будет выступать в качестве контроля. Это должен быть достаточно хорошо изученный протеом (тоже вероятно референсный) сравнительно близкого организма, который, тем не менее, имеет некоторое существенное отличие, на котором вы и решите сосредоточить сравнение. Например, если у вас патогенная бактерия, неплохим вариантом будет её близкий непатогенный родственник. Если совсем нет идей, можете выбрать один из модельных организмов: E.coli, B.subtilis, M.jannaschii и т.д. Но обоснование выбора будет оцениваться.
Про оба протеома в отчете надо будет привести идентификаторы и общее количество белков. Еще надо будет сравнить степень изученности протеомов. Самая грубая оценка изученности – количество белков протеома в базе Swiss-Prot. Но вы вполне способны получить более хорошую оценку. Не забудьте проверить BUSCO и CPD протеомов, в отчете обязательно нужно отразить, если какое-то из значений вызывает опасения.
Наконец, вам надо скачать белковые записи, принадлежащие протеомам, в формате swiss (это название формата записей UniProtKB в пакете EMBOSS). Проверять буду наличие двух файлов с именами ~/term2/pr8/{ID}.swiss.gz, где {ID} – идентификатор протеома в базе Proteomes (вида UP0xxxxxxxx). Это должны быть запакованные с помощью gzip файлы (расширение .gz не просто так)! Подробнее о том, как эти файлы получить и как с ними работать, в подсказках. Ссылки на файлы в отчете приводить не нужно. Сами файлы можно будет удалить после получения зачета за практикум, чтобы не занимали место.
2. Сравнение протеомов по представленности определенных групп белков
Ваша задача – сравнить доли, которые составляют белки некоторой "функциональной группы" в протеоме вашей бактерии/археи (которой принадлежит изучаемый белок) и в контрольном протеоме.
"Функциональных групп" будет 3:
- трансмембранные белки;
- ферменты;
- функциональная группа на ваш выбор.
В идеале, третья группа белков должна быть связана с тем самым отличием вашей бактерии, по которому вы подбирали контрольный протеом. Как оценить количество белков из каждой группы решайте сами. Это могут быть и соответствующие поисковые запросы к Proteomes (тогда их обязательно надо указать в отчете), и анализ скачанных в пункте 1 записей с помощью команд bash или скрипта на python (в тогда нужно привести в отчете команды, или дать ссылку на скрипт, jupyter notebook нельзя, проверять мне неудобно). На основе полученных значений необходимо сделать выводы, и привести их в отчете. Пожалуйста, не забывайте и про техническую составляющую. Может ли каким-то образом на полученные значения повлиять источник информации? Первые две группы, на самом деле, выбраны не просто так. По моим представлениям, количество ферментов и количество трансмембранных белков могут по разному зависеть от качества аннотации протеомов. Но это во многом зависит от способа их оценки, который вы выберете. Здравые мысли буду поощрять баллами, неверные предположения буду штрафовать только в крайнем случае (когда очевидная глупость написана).
В данном задании очень поможет более детальное изучение устройства записей UniProtKB, которое хорошо описано здесь.
3. Сравнение протеомов по ...
Придумайте сами!
Единственное требование – использование при сравнении файлов с протеомами из задания 1. Но необязательно ими ограничиваться. В подсказках напишу несколько примеров того, что можно сравнить. Можете использовать их если не хватит фантазии на что-нибудь свое. Оценивать буду и идею, и реализацию. Обязательно приведите в отчете команды, которые использовали, или скрипты, если дошло дело до их написания. Если у вас появилась идея, но нет представления, как её можно реализовать, спрашивайте. Либо подскажу, как можно это сделать, либо огорчу, что пока у вас не получится это реализовать. Сразу оговорюсь, не пытайтесь использовать сущности, про которые мы вам еще не рассказывали: выравнивания, деревья, сигналы и т.д. Потерпите до соответствующих блоков. Считаю, что вполне можно придумать что-то интересное, что легко проверить на уровне вашего знания bash/python, или с помощью самых базовых программ из пакеты EMBOSS.