EMBOSS: пакет программ для анализа последовательностей
Что было сделано:
с помощью bash на базе программ пакета EMBOSS был написан скрипт, решающий следующие задачи:
- создать файл с кодирующими последовательностями в формате fasta из данного файла в формате gb (или embl)
- добавить в описание каждой последовательности функцию белка
Все это можно сделать одной командой - extractfeat. Она выводит желаемые последовательности (в нашем случае, кодирующие последовательности) опцией -type CDS и добавляет к ним особенности. Чтобы вывести функции белка, необходимо было ввести опцию -describe product. Пример кода можно увидеть на картинке ниже или скачать см. "Примечания"
Я проверила, работает ли код на примере файла с последовательностями в формате gb организма Agrobacterium tumefaciens. Результат работы программы можно увидеть на картинке.
Примечания:
Скачать скрипт можно здесь