Учебная страница курса биоинформатики,
год поступления 2020
Практикум 10. Протеомы и кластеры UniProt
Дедлайны: 01:00 AM 28 апреля (мягкий) и 01:00 AM 5 мая (жесткий).
Формат отчета: HTML страница с результатами выполнения практикумов 8 и 10. Почитайте комментарии к пр.8 перед выполнением заданий.
Пожалуйста, уделите значительное внимание обдумыванию и написанию текста. В финальном отчете не важен порядок заданий и практикумов. Расположите их так, чтобы получился логически связанный текст. Совсем не обязательно под каждое задание отдельный подзаголовок заводить.
Задания
1. Изучение кластеров UniRef
Для своего белка найдите кластеры UniRef. Для каждого белка UniProtKB есть ровно по одному кластеру в UniRef50, UniRef90 и UniRef100. Есть разные способы их найти. Разберитесь сами. Подсказка: в строке поиска в начале страницы можно выбрать базу, по которой искать, а еще есть вариант с уже знакомой вам формой "Retrieve/ID mapping". Можно поизучать отформатированную страницу белка, но на ней могут быть не все кластеры, особо любопытные могут разобраться, в каких случаях.
Постарайтесь сделать выводы, например, о распространенности белка, по размеру кластеров и/или их таксономическому охвату. Разберитесь, является ли изучаемый белок сидом (seed) в этих кластерах или репрезентативной последовательностью (representative). Подумайте, о чем это может говорить.
2. Сравнение протеомов
Ваша задача – сравнить доли, которые составляют белки некоторой "функциональной группы" в протеоме вашей бактерии/археи (которой принадлежит изучаемый белок) и некотором референсном протеоме. В качестве референсного протеома можете выбрать протеом близкого организма, или более далекого, но это должен быть хороший протеом (как минимум, он должен иметь статус референсного протеома своей таксономической группы). Можете даже взять протеом одной из модельных бактерий/архей (Escherichia coli, Bacillus subtilis, Methanocaldococcus jannaschii, Mycoplasma genitalium, Streptomyces coelicolor и других). Важно, чтобы выбор был как-то идейно обоснован в тексте.
Если для вашей бактерии/археи в базе отсутствует протеом – возьмите протеом наиболее близкого организма. Не берите протеомы со статусами "excluded" или "redundant". Для таких протеомов никаких аннотаций белков Вы не найдете.
Первым делом Вам надо будет выяснить и привести в отчете ID протеомов, количество белков в каждом из них и количество белков в базе Swiss-Prot (это очень грубо можно считать мерой изученности протеома и достоверности аннотаций белков).
"Функциональных групп" будет 3:
- трансмембранные белки;
- ферменты (а точнее, белки, которым присвоен какой-нибудь код фермента EC);
- функциональная группа на ваш выбор.
Для поиска трансмембранных белков предлагается использовать Subcellular location > Transmembrane в конструкторе запросов. Для поиска ферментов – Function > Enzyme classification [EC].
Третью группу следует (в идеале) выбрать так, что она будет интересна специально для вашей бактерии/археи. Например, если бактерия предпочитает жить в луже с большой концентрацией тяжелых металлов, оценить количество белков, связывающих катионы таких металлов. Можно придумать что угодно, что получится вытащить из аннотаций записей UniProt с помощью поисковых запросов. Примеры: белки, связывающие катион металла; факторы транскрипции; рецепторы; белки, подвергающиеся посттрансляционным модификациям. Вы можете и первые две группы заменить на что-то, больше подходящее вашей бактерии, или вашему белку. Очень хочется, чтобы по результатам сравнения вы сделали какие-то выводы.
Не всю информацию, доступную из записей, можно добыть с помощью поисковых запросов. Поэтому не ограничивайте себя этим. Вполне допустимо сначала загрузить все записи из протеома в текстовом виде, а потом что-то делать с ними с помощью bash/EMBOSS/python. Только не бегите впереди паровоза и не используйте выравнивания, пока вам про них не рассказали (это следующий блок).
Для каждой группы в отчете (но не обязательно в самом тексте) надо привести поисковый запрос к UniProtKB для протеома вашей бактерии/археи (или команды/скрипты, если использовали), количество находок по этому запросу в двух сравниваемых протеомах. В тексте обязательно должны быть результаты сравнения и их интерпретация.
Пожалуйста, не пытайтесь скачать много (больше сотни) записей из UniProtKB через EMBOSS. Это будет очень долго (seqret/entret для этого не оптимизированы) или даже может закончится блокировкой kodomo в UniProt. Для загрузки большого количества записей используйте возможности веб-интерфейса (т.е. сайт) и веб-API (подробнее здесь) UniProt.
А еще следите за квотой на домашние папки. Протеом средней бактерии весит десятки-сотни мегабайт. Удаляйте большие файлы, которые вам больше не нужны. И не надо на страничках давать ссылки на полные геномы/протеомы и т.д. В таких случаях достаточно указать идентификатор(ы) (иногда еще версию записи или время обращения).
— ИР