Практикум 9. Entrez Direct, BLAST+, EMBOSS

1. Упражнения по EMBOSS

Я проделал ряд упражнений, помогающих отработать команды EMBOSS. По ссылке можно посмотреть использовавшиеся в упражнениях команды. А задания были следующие:

Несколько файлов в формате fasta собрать в единый файл.
Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы (в презентации есть слайд про это).
Перевести выравнивание из формата fasta в формат msf.
(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
(extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.

2. Работа с Entrez Direct

Я написал сценарий, исполнимый bash, который содержит три описанных ниже конвейера в указанном порядке.

Конвейер 1: получает AC записи в базе Nucleotide (из первого аргумента сценария edirect.sh) и скачивает эту запись в формате (-format) docsum в виде (-mode) json. Сохраняет выдачу в файл {AC}.json, {AC} – это полученный АС нуклеотидной записи.

Конвейер 2: получает АС записи в базе Nucleotide (из первого аргумента сценария edirect.sh), переходит по ссылкам на записи в базе дынных Protein и загружает их в формате fasta в файл {AC}_proteins.fasta, {AC} – это полученный АС нуклеотидной записи.

Конвейер 3: получает AC записи в базе Assembly (из второго аргумента сценария edirect.sh), и печатает в STDOUT ID записи (не AC) и N50 для контигов этой сборки в виде строки {ID} {N50} (два значения, разделенные символом табуляции). Последовательность шагов придумайте сами. Последний этап (получение нужных полей в нужном формате из XML) нужно реализовать с помощью вызова xtract с нужными аргументами.

Привожу ссылку на файл со сценарием.