Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2025

Упражнения в классе

Советуем выполнить упражнения дома, если не успели на занятии. Аналогичные задания будут на коллоквиуме в конце семестра. Отражать выполнение упражнений в отчете по практикуму не нужно.

Создайте папку ~/term2/pr8/files и перейдите в нее. Все упражнения выполняйте в этой папке. Удалите папку со всем содержимым, когда выполните все упражнения.

EMBOSS

Справка

  1. Сравните выдачу seqret -help и seqret -help -verbose.

  2. Почитайте справку по программе wossname и определите, как вывести список всех программ EMBOSS, упорядоченный по алфавиту.

USA

  1. С помощью showdb определите, какая аббревиатуры используется на kodomo для базы Swiss-Prot.

  2. С помощью seqret создайте файл eno_ecoli.fasta c последовательностью из записи ENO_ECOLI в формате fasta (это формат по умолчанию).

  3. Аналогично предыдущему, но выведите последовательность в терминал, а не сохраняйте в файл; в EMBOSS есть "магические" имена файлов stdin и stdout, которые обозначают стандартные потоки ввода и вывода.

  4. С помощью seqret создайте файл eno_ecoli.plain c последовательностью из записи ENO_ECOLI в формате plain.

  5. Аналогично предыдущему, но вывести надо только десять первых аминокислот из последовательности.
  6. С помощью конвейера из seqret и grep посчитайте, сколько в Swiss-Prot содержится записей с ID, начинающимся на ENO_.

  7. Создайте файл fragments.usa cо списком USA, а потом используйте его вместе с seqret, чтобы получить отдельно первые десять, вторые десять и третьи десять аминокислот из записи ENO_ECOLI, выведите в терминал в формате ncbi (это один из вариантов формата fasta).

Опции -auto и -filter

  1. Выполните второе упражнение из раздела "Справка", без указания аргумента -search, используя значение по умолчанию.

  2. Выполните третье упражнение по USA с помощью опции -filter.

  3. Добавьте -filter в последнее упражнение по USA и убедитесь, что эта опция ничего не портит.

Перенаправления

  1. Запишите справку seqret -help в файл seqret.txt.

  2. Передайте расширенную (с -verbose) справку по seqret в less.

  3. Убедитесь, что первое информационное сообщение при запуске seqret выдает в стандартный поток ошибок, а не стандартный поток вывода.

entret

  1. С помощью seqret cкачайте запись ENO_ECOLI в файл eno_ecoli.swiss в формате swiss.

  2. Просмотрите файл в less, есть ли в нем таблица локальных особенностей (поле FT)?

  3. Скачайте ту же запись в файл eno_ecoli.full с помощью entret, есть ли таблица локальный особенностей теперь?

  4. С помощью конвейера из entret и grep выведите в less только содержимое поля PE для всех записей из Swiss-Prot, идентификаторы которых начинаются на ENO_.

Сжатые файлы

Все упражнения нужно выполнить с файлом /P/y25/term2/UP000000558.swiss.gz. Нельзя копировать файл, пытаться его распаковывать или даже просто перемещаться в папку, где он лежит.

  1. Откройте содержимое файла в less с помощью конвейера, начинающегося с zcat.

  2. Посмотрите содержимое в zless, убедитесь, что в этой программе тоже работают опции less на примере нумерации строк.

  3. С помощью zgrep посчитайте, сколько в файле строк, которые начинаются на ID, потом аналогично для SQ, PE и // – что означает полученное число.

  4. Выведите все ключи, которые встречаются в таблице локальных особенностей во всех записях, содержащихся в файле.
  5. Определите, сколько всего аминокислот в протеоме UP000000558 (помогут программы union и infoseq из EMBOSS).
  6. Определите, сколько в этом протеоме каждой из аминокислот (обратите внимание на wordcount). Если ли какие-нибудь необычные аминокислоты?
  7. (*) Посчитайте, сколько записей содержат ключ DISULFID в таблице локальных особенностей (их не 111 и даже не 78).

Подсказки к последнему упражнению приведены в пояснениях заданий практикума.

2025/2/pr8/class (последним исправлял пользователь is_rusinov 2026-04-01 07:55:50)