Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2024

Практикум 8. UniProt Proteomes, EMBOSS

Отчет должен включать страничку на сайте и файл c протеомом на kodomo. Файл будет проверяться скриптом, поэтому он должен иметь указанное имя (а не лежать внутри public_html, например) и формат. Проставлять ссылку на этот файл со страницы отчета не нужно. При записи в очередь нужно указать адрес страницы с отчетом. Номер практикума 8.

Дедлайны: 11:00 PM 8 апреля (мягкий) и 01:00 AM 15 апреля (жесткий).

Отчет на сайте должен быть связным текстом, понятным в отрыве от заданий. Разделять его на пункты, соответствующие пунктам задания, не обязательно. Но порядок заданий прошу соблюдать для упрощения проверки.

1. Поиск протеома, соответствующего геномной сборке

В прошлом семестре вы работали с геномной сборкой из базы RefSeq. В UniProt Proteomes указывают идентификатор сборки INSDC, поэтому сначала вам необходимо определить идентификатор сборки INSDC, которая соответствует вашей сборке из RefSeq. Идентификаторы геномных сборок в RefSeq имеют вид GCF_xxxxxxxxx.x, а в INSDC (GenBank/ENA/DDBJ) – GCA_xxxxxxxxx.x.

Вам нужно найти протеом, который соответствует вашей геномной сборке (точнее, её версии из INSDC), и определить его статус. В отчете нужно привести идентификатор сборки RefSeq; ссылку на страницу из базы NCBI Datasets Genome, которая соответствует этой сборке; идентификатор последней версии сборки INSDC; поисковый запрос по UniProt Proteomes, который выдал протеом; идентификатор протеома и его статус. Если протеом является избыточным, то нужно указать, в пользу какого протеома его исключили из Proteomes. Если протеом был удален из Proteomes, постарайтесь выяснить причину удаления.

2. Поиск и скачивание референсного протеома

Вам нужно найти референсный протеом, наиболее близкий к протеому вашей бактерии/археи, и скачать белковые записи из UniProtKB, которые этому протеому принадлежат.

Скорее всего, это будет референсный протеом наиболее близкого организма. Советую начать с поиска референсных протеомов из того же таксона (вида?), используя расширенный запрос по базе Proteomes. При поиске используйте TaxID, а не название таксона! Если для вида референсных протеомов в базе нет, произведите поиск по таксону, который указан в качестве родительского на странице вида в базе Taxonomy. Постарайтесь выбрать наиболее близкий референсный протеом. В отчете опишите процедуру и укажите все использованные поисковые запросы.

Далее вам надо скачать белковые записи, принадлежащие выбранному протеому, в формате swiss (это название формата записей UniProtKB в пакете EMBOSS). Проверять буду наличие файла с именем ~/term2/pr8/{ID}.swiss.gz, где {ID} – идентификатор протеома в базе Proteomes (вида UPxxxxxxxxx). Это должен быть запакованный с помощью gzip файл (расширение .gz не просто так)! Подробнее о том, как этот файл получить и как с ними работать, в подсказках. Ссылку на файл в отчете приводить не нужно. Сам файл можно будет удалить после получения зачета за практикум, чтобы не занимал место.

3. Оценка количества ферментов в протеоме

Ваша задача – попытаться оценить, сколько в протеоме белков, обладающих какой-либо ферментативной активностью, используя поисковые запросы на сайте UniProt и команды bash на kodomo.

В подсказках приведены некоторые соображения о том, что в записях UniProtKB может указывать на наличие ферментативной активности белка.

В отчете нужно привести один поисковый запрос и один конвейер bash, которые можно использовать для оценки количества ферментов. Кроме того, нужно сравнить оценки и привести свои рассуждения, на сколько они являются точными. Конвейер bash можно заменить скриптом на питоне, в этом случае требуется ссылка на скрипт и команда его запуска. Это должен быть полноценный скрипт, а не какой-нибудь ipynb!

4. Анализ протеома консольными средствами

Придумайте, что интересного можно выяснить про протеом по белковым записям в формате swiss. Единственное требование в этом задании – использование скаченного сжатого файла UPxxxxxxxx.swiss.gz и командной строки для его анализа. Вы можете применять стандартные программы Linux, которые проходили в прошлом семестре (grep, cut, tr, ...), и/или программы из пакета EMBOSS. Или можете написать скрипт на Python, но запускать его все равно требуется из командной строки (никаких Jupyter/IPython ноутбуков).

В подсказках есть несколько предложений для анализа, если не получается или не хочется придумать что-то свое. Но за отсутствие оригинальности снижается оценка, вплоть до минимальной, достаточной для зачета задания.

В отчете нужно привести все команды/скрипты, которые вы использовали, и результаты анализа.

2024/2/pr8 (последним исправлял пользователь is_rusinov 2025-04-03 20:44:53)