Учебная страница курса биоинформатики,
год поступления 2016
Практикум 9. Задания
1. Определение и изменение конца строки
В директории /P/y16/term2/block2/some_files на kodomo находится несколько текстовых файлов. Ваша задача: определить, у каких из них конец строки обозначен байтами, принятыми в Windows, и создать в своей директории ~/term2/linux/credits/some_files копии только таких файлов с теми же названиями, но уже с обозначениями концов строк, принятыми в Unix/Linux.
Указания. Определение конца строки: просмотрщик (F3, затем F4) в Far под Windows или cat -v под Linux. Изменение конца строки: Shift+F2 в редакторе Far или noreturn из EMBOSS.
2. Переменные.
Заведите в своей домашней директории файл .bash_profile (название начинается с точки) и в нём строку
pt2=/home/export/samba/public/y16/term2
Разлогиньтесь и снова залогиньтесь на kodomo. Убедитесь, что команды вида:
echo $pt2 ls $pt2/block2
и т.п. работают как нужно.
См. указания.
Оценка: по наличию файла .bash_profile и нужной строки в нём к началу следующего занятия.
(*) Дополнительно. Посмотрите, что содержится в переменной PS1 (echo $PS1), эта переменная задаёт вид приглашения ввести команду. В man bash долистайте до строки "PROMPTING" и посмотрите, как можно изменить переменную PS1 и какой от этого будет эффект. Если какой-то вариант вам понравится, внесите его в .bash_profile, а на специальной странице объясните, как теперь выглядит приглашение и почему. Не забывайте защищать спецсимволы bash, в частности обратную косую черту \ и пробел.
3. Сценарий bash без циклов
Напишите сценарий, который выделяет из записи P03301 банка Swiss-Prot последовательности всех минимальных зрелых цепей (то есть таких, которые не делятся на более короткие цепи) в виде отдельных файлов. Названия выходных файлов и названия последовательностей в них должны быть "читаемыми", например, последовательность цепи РНК-зависимой РНК-полимеразы можно поместить в файл polymerase.fasta и назвать Polymerase.
Сценарий назовите minchains.sh и положите в директорию ~/term2/linux/credits к началу следующего занятия. Разумеется, его нужно сначала протестировать, и желательно в какой-нибудь другой директории (чтобы в credits в момент проверки случайно не оказался недоделанный сценарий); рекомендуется тестировать сценарии этого и следующего упражнений в директории ~/term2/linux/pr9.
Указание. В EMBOSS есть программа descseq, которая аналогична seqret, но позволяет придавать выходной последовательности новые имя и описание.
См. также общие указания.
4. Сценарий bash с циклом
Напишите сценарий, который принимает в командной строке одно из однобуквенных обозначений аминокислотных остатков и выдаёт количество этого остатка в каждом из файлов текущей директории, имеющих расширение .fasta
Сценарий назовите countres.sh и положите в директорию ~/term2/linux/credits к началу следующего занятия.
См. указания.
5. Программа на Python, вызывающая программы EMBOSS
Напишите программу, которая по заданному ID или AC банка Swiss-Prot создаёт файлы в формате fasta, соответствующие всем описанным в записи особенностям типа CHAIN. Файлы должны называться "chain1.fasta", "chauin2.fasta" и т.д., названия последовательностей должны быть "Chain1", "Chain2" и т.д., описания – копировать "Feature description" из исходного файла.