Один файл в формате fasta с несколькими последовательностями разделить на отдельные файлы:
cd to_split
seqretsplit coding1.fasta -auto
Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам и сохранить в одном fasta-файле:
seqret @list.txt3cds.fasta
Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода:
transeq coding1.fastacoding1prot.fasta -table 0
Транслировать данную нуклеотидную последовательность в шести рамках:
transeq coding.fastacodingprot.fasta -frame 6
Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными:
infoalign alignment.fasta -refseq 2 -outfile inforef.tab -only -name -idcount
Перевести аннотации особенностей в записи формата .gb в табличный формат .gff:
featcopy chromosome.gb -outfeat chromosome.gff
Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; в описании каждой последовательности должна присутствовать функция белка:
extractfeat chromosome_full.gb -type cds -describe product -outseq chr2cds.fasta
Для случайной последовательности проверить с помощью blastn сколько «достоверных» находок (E-value < 0.1) находится в нуклеотидном банке данных:
makenucseq -amount 1 -length 100 -outseq random.fasta
blastn -task blastn -query random.fasta -db nt -out random.blastn -evalue 10.0 -outfmt 7 -remote #evalue 10.0 is used to prove result list not empty
Найти все открытые рамки длиной более X в бактериальной хромосоме:
getorf -sequence chromosome_full.gb -outseq openframes.fasta -circular -table 11 -minsize 1000 #for X = 1000
Найти частоты кодонов в данных кодирующих последовательностях:
cusp coding.fastacoding.tb
P.S.: На Kodomo не обновлён BLAST+ и не умеет подключаться к удалённым серверам по SSL. Это решается обновлением BLAST+ до версии 2.6+. Иначе задание 11 невыполнимо в standalone blast.