EMBOSS: пакет программ для анализа последовательностей
1)Несколько файлов в формате fasta собрать в единый файл
Исходные данные:TERT_SCHPO.fasta, H31_HUMAN.fasta, TBB_NEUCR.fasta
Команды: seqret "*.fasta" join.fasta
Результат:join.fasta
2)Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
Исходные данные:join.fasta
Команды: seqretsplit join.fasta
Результат:tert_schpo2.fasta, h31_human.fasta, tbb_neucr2.fasta
3)Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
Исходные данные:AE014075.1, list.txt
Команды: seqret @list.txt 3cds.fasta
Результат:3cds.fasta
4)Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
Исходные данные:3cds.fasta
Команды: transeq 3cds.fasta prot.fasta -table 0
Результат:prot.fasta
5)Транслировать данную нуклеотидную последовательность в шести рамках.
Исходные данные:3cds.fasta
Команды: transeq 3cds.fasta 6frame.fasta -frame 6
Результат:6frame.fasta
6)Перевести выравнивание и из fasta формате в формат .msf
Исходные данные:pr10.1.fasta
Команды: seqret fasta::pr10.1.fasta msf::alignment.msf
Результат:alignment.msf
7)Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и )
Исходные данные:pr10.1.fasta
Команды: infoalign pr10.1.fasta -refseq 2 -outfile idcount.tab -only -name -idcount
Результат:idcount.tab
8)(featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
Исходные данные:sequence.gb
Команды: featcopy sequence.gb -outfeat sequence.gff
Результат:sequence.gff
9)(extractfeat) Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
Исходные данные:sequence2.gb
Команды: extractfeat sequence2.gb -type cds -describe product -outseq cds*prot.fasta
Результат:cds2Aprot.fasta
10)Перемешать буквы в данной нуклеотидной последовательности.
Исходные данные:TERT_SCHPO.fasta
Команды: shuffleseq TERT_SCHPO.fasta shuffle.fasta
Результат:shuffle.fasta
13)Найдите частоты кодонов в данных кодирующих последовательностях
Исходные данные:3cds.fasta
Команды: cusp 3cds.fasta codon.tb
Результат:codon.tb
17)Удалите символы гэпов и другие посторонние символы из последовательности.
Исходные данные:pr10.1.fasta
Команды: degapseq pr10.1.fasta pr10.1.mod.fasta
Результат:pr10.1.mod.fasta
18)Переведите символы конца строки в формат unix
Исходные данные:list.txt
Команды: noreturn list.txt list2.txt
Результат:list2.txt
Источники:
[1] Презентация к 9 занятию.
© Матвеев Андрей, 2017 AD