Описание формата fasta для последовательностей белков и нуклеиновых кислот

Формат fasta пригоден как для программ, работающих с последовательностями, так и для людей (если открыть файл текстовым редактором)
Формат fasta позволяет хранить следующую информацию о последовательности: Признаком начала информации о последовательности служит символ "<" в первой позиции строки.

Слово в этой строке, начинающееся в позиции 2 и заканчивающееся первым пробелом, считается идентификатором последовательности.

Информации из оставшейся части этой строки рассматривается как описание последовательности. В описание можно включить любой текст, помогающий человеку понять что за последовательность.

Тeкст во всех последующих строках рассматривается как последовательность белка. Служебные символы - пробелы, концы строки, символы табуляции и т.п. а также цифры, игнорируются.

Допускается хранение в одном файле формата fasta многих последовательностей. В таком случае одна последовательность расположена между двумя строками, начинающимися с символа "<" или, для последней последовательности, между строкой начинающимися с символа "<" и концом файла.

Пример файла с двумя последовательностями.
Красным выделен признак начала информации о последовтельности, зеленым - идентификатор, синим - описание последовательности, голубым - игнорируемые символы.
>CCPA_BACSU Catabolite control protein A 
MSNITIYDVAREANVSMATVSRVVNGNPNVKPTTRKKVLEAIERLGYRPNAVARGLASKK
TTTVGVIIPDISSIFYSELARGIEDIATMYKYNIILSNSDQNMEKELHLLNTMLGKQVDG
IVFMGGNITDEHVAEFKRSPVPIVLAASVEEQEETPSVAIDYEQAIYDAVKLLVDKGHTD
IAFVSGPMAEPINRSKKLQGYKRALEEANLPFNEQFVAEGDYTYDSGLEALQHLMSLDKK
PTAILSATDEMALGIIHAAQDQGLSIPEDLDIIGFDNTRLSLMVRPQLSTVVQPTYDIGA
VAMRLLTKLMNKEPVEEHIVELPHRIELRKSTKS

>Q541XY Z   Hypotetical protein  
MCTREE                                        6
HTSFDFGGKLLINMRKQFVAEGDYTYDSGLEALQHLMSLDKK   48

HVAMRLLTKLMNKEPVEEHIVELPHRIELRK              79