Описание формата fasta для последовательностей белков и нуклеиновых кислот
Формат fasta пригоден как для программ, работающих с последовательностями,
так и для людей (если открыть файл текстовым редактором)
Формат fasta позволяет хранить следующую информацию о последовательности:
- Идентификатор последовательности (например, CCPA_BACSU )
- Описание последовательности (например, Catabolite control protein A )
- Саму последовательность.
Признаком начала информации о последовательности служит символ "<" в первой позиции строки.
Слово в этой строке, начинающееся в позиции 2 и заканчивающееся первым пробелом, считается
идентификатором последовательности.
Информации из оставшейся части этой строки рассматривается
как описание последовательности. В описание можно включить любой текст, помогающий человеку понять
что за последовательность.
Тeкст во всех последующих строках рассматривается как последовательность белка.
Служебные символы - пробелы, концы строки, символы табуляции и т.п. а также цифры, игнорируются.
Допускается хранение в одном файле формата fasta многих последовательностей. В таком случае
одна последовательность расположена между двумя строками, начинающимися с символа "<" или,
для последней последовательности, между строкой начинающимися с символа "<" и концом файла.
Пример файла с двумя последовательностями.
Красным выделен признак начала информации о последовтельности, зеленым - идентификатор,
синим - описание последовательности, голубым - игнорируемые символы.
>CCPA_BACSU Catabolite control protein A
MSNITIYDVAREANVSMATVSRVVNGNPNVKPTTRKKVLEAIERLGYRPNAVARGLASKK
TTTVGVIIPDISSIFYSELARGIEDIATMYKYNIILSNSDQNMEKELHLLNTMLGKQVDG
IVFMGGNITDEHVAEFKRSPVPIVLAASVEEQEETPSVAIDYEQAIYDAVKLLVDKGHTD
IAFVSGPMAEPINRSKKLQGYKRALEEANLPFNEQFVAEGDYTYDSGLEALQHLMSLDKK
PTAILSATDEMALGIIHAAQDQGLSIPEDLDIIGFDNTRLSLMVRPQLSTVVQPTYDIGA
VAMRLLTKLMNKEPVEEHIVELPHRIELRKSTKS
>Q541XY Z Hypotetical protein
MCTREE 6
HTSFDFGGKLLINMRKQFVAEGDYTYDSGLEALQHLMSLDKK 48
HVAMRLLTKLMNKEPVEEHIVELPHRIELRK 79