Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2024

Упражнения в классе

Создайте папку ~/term2/pr8/files и перейдите в нее. Все упражнения выполняйте в этой папке. Удалите папку со всем содержимым, когда выполните все упражнения.

EMBOSS

Справка

  1. Сравните выдачу man для программы seqret, seqret -help и seqret -help -verbose.

  2. Почитайте справку по программе wossname и определите, как вывести список всех программ EMBOSS, упорядоченный по алфавиту.

USA

  1. С помощью showdb определите, какая аббревиатуры используется на kodomo для базы Swiss-Prot.

  2. С помощью seqret создайте файлы eno_ecoli.fasta и eno_ecoli.plain c последовательностью из записи ENO_ECOLI в формате fasta и в формате plain соответственно.

  3. Аналогично предыдущему, но выведите последовательности в терминал, а не сохраняйте в файл; в EMBOSS есть "магические" имена файлов stdin и stdout, которые обозначают стандартные потоки ввода и вывода.

  4. Аналогично предыдущему, но вывести надо только десять первых аминокислот из последовательности.
  5. С помощью конвейера из seqret и grep посчитайте, сколько в Swiss-Prot содержится записей с ID, начинающимся на ENO_.

  6. Создайте файл fragments.usa cсо списком USA, а потом используйте его вместе с seqret, чтобы получить отдельно первые десять, вторые десять и третьи десять аминокислот из записи ENO_ECOLI, выведите в терминал в формате plain.

Опции -auto и -filter

  1. Выполните второе упражнение из раздела "Справка", без указания аргумента -search, используя значение по умолчанию.

  2. Выполните третье упражнение по USA с помощью опции -filter.

  3. Добавьте -filter в последнее упражнение по USA и убедитесь, что эта опция ничего не портит.

Перенаправления

  1. Запишите справку seqret -help в файл seqret.txt.

  2. Передайте расширенную (с -verbose) справку по seqret в less.

  3. Убедитесь, что первое информационное сообщение при запуске seqret выдает в стандартный поток ошибок, а не стандартный поток вывода.

entret

  1. Скачайте запись ENO_ECOLI в файл eno_ecoli.swiss в формате swiss.

  2. Просмотрите файл в less, есть ли в нем таблица локальных особенностей?

  3. Скачайте ту же запись в файл eno_ecoli.full с помощью entret, есть ли таблица локальный особенностей теперь?

  4. С помощью конвейера из entret и grep выведите в less только содержимое поля PE для всех записей из Swiss-Prot, идентификаторы которых начинаются на ENO_.

Сжатые файлы

Все упражнения нужно выполнить с файлом /P/y24/term2/UP000000558.swiss.gz. Нельзя копировать файл, пытаться его распаковывать или даже просто перемещаться в папку, где он лежит.

  1. Откройте содержимое файла в less с помощью конвейера, начинающегося с zcat.

  2. Посмотрите содержимое в zless, убедитесь, что в этой программе тоже работают опции less на примере нумерации строк.

  3. С помощью zgrep посчитайте, сколько в файле строк, которые начинаются на ID, потом аналогично для SQ, PE и // – что означает полученное число.

  4. Выведите все ключи, которые встречаются в таблице локальных особенностей во всех записях, содержащихся в файле.
  5. Определите, сколько всего аминокислот в протеоме UP000000558 (поможет программа infoseq и трюк с использованием промежуточного формата plain).
  6. Определите, сколько в этом протеоме каждой из аминокислот (обратите внимание на wordcount).
  7. (*) Посчитайте, сколько записей содержат ключ DISULFID в таблице локальных особенностей (их не 78).

2024/2/pr8/class (последним исправлял пользователь is_rusinov 2025-04-01 07:32:35)