Была выбрана задача: По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product).
Для ее решения был написан
скрипт на bash.
Описания использования:
Ввод в командную строку
./script.sh 'name'
Где 'name' - это имя файла в формате gb (из GenBank или RefSeq) или embl (из ENA),
лежащего в рабочей директории или, если файл не скачан, то ссылка на запись в банке в формате USA,
без указания координат. (X::Y:Z)
Формат USA имеет вид: X::Y:Z[a:b:r], где X - формат входного файла, Y - имя базы данных или файла,
Z - имя последовательности. a и b cоответственно начало и конец исследуемого участка, r - обозначение
прямой брать участок или обратный.