Учебная страница курса биоинформатики,
год поступления 2010
Контрольная работа
(0.5 балла) Поредактируйте свою домашнюю страницу. Замените во всех .html-файлах ссылки вида http://kodomo.fbb.msu.ru/что-то или http://kodomo.cmm.msu.ru/что-то или аналогичное на *.su и т.п. на /что-то.
(1.5 балла) Зайдите на сайт uniprot и скачайте оттуда в формате Flat text все последовательности, которые находятся запросом laglidadg. Выделите из этого файла последовательности и разделители последовательностей: это строки, начинающиееся не с букв; удалите из этих строк лишние пробелы, сохраните в отдельный файл.
(1.5 балла) Найдите самую частую публикацию по названию в файле uniprot flat text (см выше). Название публикации пишется в поле RT, при этом в названии публикации есть переносы строк.
(2 балла) Сделайте из файла uniprot flat text (см выше) FASTA-файл со следующими данными: ID (первое слово в поле ID) в качестве имени последовательности; сконкатенированное содержимое всех OC, соединённые через "/" вместо "; " в качестве описания последовательности; содержимое поля SQ в качестве тела последовательности.
(2 балла) Вырежьте из PDB-файла 1m5x.pdb часть, лежащую в заданном параллелепипеде (40 <= x <= 45, 120 <= y <= 125, 90 <= z <= 100). Достаточно вырезать только строки со словом ATOM (для большинства программ этого хватает). Сколько в этот параллелепипед попадает остатков или их частей?
Подсказки:
Прочитайте про -i в man sed.
- Прочитайте про FIELDWIDTHS в man awk.
Если очень хоочется писать регулярные выражения на несколько строк, то самый простой способ сделать это – сначала заменить переносы строк на что-то, чего в тексте точно нет, поиграться с регулярными выражениями, а потом заменить всё обратно.
http://www.wwpdb.org/documentation/format33/sect9.html#ATOM – описание формата строки ATOM в PDB