Entrez Direct, BLAST+, EMBOSS

Задание 1

## 1
# берет файл fasta (coding1.fasta) с несколькими последовательностями, читает их и разделяет на отдельные файлы (тоже fasta формата), сохраняет в текущую папку с именами файлов = идентификатор последовательностей (-filter чтобы сообщения не показывались, так во всех программах)
seqretsplit -filter coding1.fasta dir/name.format

## 2
# вырезает участок кодирующей последовательности из файла (почему-то ругается что файл сломан)
seqret -filter 'genbank::chromosome.gb:U00096[5683:6459:r]' stdout
####seqret -filter 'embl:X13776[2:15:r]' stdout (норм работает)

## 3
# каждая из кодирующих последовательностей файла coding1.fasta транслируется в 3х рамках считывания на прямой цепи (-frame F) и все кодируемые белки записываются в файл proteins.fasta
transeq -filter coding1.fasta -frame F -stdout

## 4
# выводит открытые рамки считывания длиной не меньше 225 (большое значение, чтобы не забивать поле вывода)
getorf -filter coding.fasta -minsize 225 stdout

## 5
# seqret читает файл alignment.fasta в формате msf и выводит
seqret -filter msf::alignment.fasta stdout

## 6
# в файле выравнивания берет 2ю строку за референсную, считает количество совпадающих букв с остальными строками, в stdout выводит только имена последовательностей и число совпадающих букв
infoalign -filter alignment.fasta -refseq 2 -only -name -idcount stdout

## 7
# Переводит аннотации из формата .gb в формат .gff
featcopy -filter chromosome.gb chromosome.gff

## 8
# Из аннотированного файла хромосомы .gb извлекаем все записи CDS в .fasta
extractfeat chromosome.gb -type CDS cds.fasta

## 9
# 5 раз перемешивает буквы в последовательности (выдает 5 новых последовательностей)
shuffleseq -filter coding.fasta -shuffle 5 stdout

## 10
# выдает три рандомно сгенерированные нуклеотидный последовательности длины 100 в файл .ncbi
makenucseq -filter -amount 3 -length 100 ncbi::new.ncbi

## 11
# считает количество кодонов в последовательностях (вывод - таблица о встречаемости кодонов)
cusp -filter coding1.fasta stdout

## 12
# выравнивает нуклеотидные последовательности (кодирующие) в соответствии с выравниванием их белков (продуктов)
tranalign -filter gene_sequences.fasta protein_alignment.fasta stdout

## 13
# убирает из выравнивания гэпы (концептуально все что отличается от букв)
degapseq -filter protein_alignment.fasta stdout

Задание 2

сценарий

#!/usr/bin/bash

efetch -db "pubmed" -id ${1} -format "abstract" 1> abstract_pmid{"${1}"}.txt

epost -db protein -input ${2} | elink -target nuccore | efetch -format acc| sort -h