Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2025

Практикум 8. UniProt Proteomes, EMBOSS

Отчет должен включать страничку на сайте и файл c протеомом на kodomo. Файл будет проверяться скриптом, поэтому он должен иметь указанное имя (а не лежать внутри public_html, например) и формат. Проставлять ссылку на этот файл со страницы отчета не нужно. При записи в очередь нужно указать адрес страницы с отчетом. Номер практикума 8.

Дедлайны: 11:00 PM 7 апреля (мягкий) и 01:00 AM 14 апреля (жесткий).

Отчет на сайте должен быть связным текстом, понятным в отрыве от заданий. Разделять его на пункты, соответствующие пунктам задания, не обязательно. Но порядок заданий прошу соблюдать для упрощения проверки.

1. Поиск протеома, соответствующего геномной сборке

Вам нужно найти протеом UniProt, который соответствует геномной сборке, с которой вы работали в прошлом семестре.

В отчете нужно привести:

Если протеом является избыточным, то нужно указать, в пользу какого протеома его исключили из Proteomes. Если протеом был удален из Proteomes, постарайтесь выяснить и указать в отчете причину удаления.

Пояснения приведены здесь.

2. Поиск и скачивание референсного протеома

Вам нужно найти референсный протеом, наиболее близкий к протеому вашей бактерии/археи, и скачать белковые записи из UniProtKB, которые этому протеому принадлежат.

Советую начать с поиска референсных протеомов из того же вида, используя расширенный запрос по базе Proteomes и переходя к таксону более высокого уровня в случае отсутствия находок. При поиске используйте TaxID, а не название таксона (поисковый запрос должен содержать taxonomy_id, а не taxonomy_name). Поисковый запрос обязательно должен содержать не только ограничение по таксону, но и по статусу протеома. Нужные таксоны и их идентификаторы TaxID можно определить в базе UniProt Taxonomy, используя поиск по названию вашего организма. В отчете опишите процедуру и укажите все использованные поисковые запросы.

Далее вам надо скачать белковые записи, принадлежащие выбранному протеому, в формате swiss (это название формата записей UniProtKB в пакете EMBOSS). Проверять буду наличие файла с именем ~/term2/pr8/{ID}.swiss.gz, где {ID} – идентификатор протеома в базе Proteomes (вида UPxxxxxxxxx). Это должен быть запакованный с помощью gzip файл (расширение .gz не просто так)! Подробнее о том, как этот файл получить и как с ними работать, в подсказках. Ссылку на файл в отчете приводить не нужно, сам файл можно будет удалить после получения зачета за практикум, чтобы не занимал место.

3. Оценка числа белков, содержащих альфа-спирали

Цель задания – сформировать или углубить ваши представления об устройстве записей UniProtKB, возможных источниках фактов из белковых аннотаций и соображениях, которые всегда стоит учитывать при анализе аннотаций.

В таблице локальных особенностей записей UniProtKB есть ключ, соответствующий альфа-спиралям белков. Еще один ключ соответствует трансмембранным участкам, которые чаще всего (хоть и не всегда) являются альфа-спиралями. Ваша задача – по наличию этих ключей посчитать, сколько записей содержат альфа-спирали и трансмембранные участки, сравнить эти числа и сделать выводы. На сколько оценки удачные? Есть ли противоречия в полученых значениях? C чем они связаны?

Описание формата записей доступно на сайте UniProt: Help -> UniProtKB в разделе UniProt data -> User manual for the UniProtKB flat file format. Вас интересует описание поля FT. После краткого устройства этого поля указаны все возможные ключи локальных особенностей.

Записи нельзя считать вручную! Напишите для этого скрипт на python или придумайте, как обойтись конвейером bash (см. подсказки). Скрипт/конвейер обызательно нужно привести в отчете.

4. Оценка количества ферментов в протеоме

Ваша задача – попытаться оценить, сколько в референсном протеоме белков, обладающих какой-либо ферментативной активностью, используя поисковые запросы на сайте UniProt.

В пояснениях приведены некоторые соображения о том, что в записях UniProtKB может указывать на наличие ферментативной активности белка.

В отчете нужно привести два поисковых запроса по разным полям, которые можно использовать для оценки количества ферментов, и количество находок по ним. Требуется сравнить оценки и привести свои рассуждения, на сколько они являются точными.

2025/2/pr8 (последним исправлял пользователь is_rusinov 2026-04-01 08:33:35)