Учебная страница курса биоинформатики,
год поступления 2010
Зачёт
- Программа получает на вход два файла: файл в формате FASTA и файл, описывающий соответствие идентификатора последовательностей идентификаторам последовательностей из других банков данных. Последовательности в FASTA-файле имеют идентификаторы unirpot id (от 1 до 6 буквоцифр, далее символ '_', далее от 3 до 5 буквоцифр). Формат файла соответствия идентификаторов последовательностей: на каждой строке перечислены через запятую идентификаторы, между которыми установлено соответствие, в произвольном порядке. Задача: заменить идентификаторы последовательностей согласно таблице соответствий на идентификаторы unirpot ac (слово из 6 символов, первая - буква одна из A,B,C,D,E,F,O,P,Q, вторая - цифра, далее 3 цифробуквы и последняя - опять цифра) и записать результат в выходной файл. Программа должна иметь отдельную функцию для проверки соответствия строки формату uniprot id, для неё должна быть предоставлена минимальная документация и тесты.