EMBOSS: пакет программ для анализа последовательностей
Задание 1. Несколько файлов в формате fasta собрать в единый файл
Исходные файлы:1.fasta,
2.fasta,
3.fasta.
Команда: seqret "*.fasta" qwe.fasta
Полученные файлы:qwe.fasta
Задание 2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
Исходные файлы:task2.fasta
Команда: seqretsplit task2.fasta
Полученные файлы:q.fasta,
w.fasta,
e.fasta.
Задание 3. Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
Исходные файлы:task3.txt.
Команда: seqret @task3.txt final.fasta
Полученные файлы:final.fasta
Задание 4. Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
Исходные файлы: task4.fasta
Команда: transeq -table 0 task4.fasta task4_p.fasta
Полученные файлы:task4_p.fasta
Задание 5. Tранслировать данную нуклеотидную последовательность в шести рамках.
Исходные файлы: task4.fasta
Команда: transeq -frame 6 task4.fasta task5.fasta
Полученные файлы: task5.fasta
Задание 6. Перевести выравнивание и из fasta формате в формат .msf
Исходные файлы: 6.fasta
Команда: seqret 6.fasta msf::6.msf
Полученные файлы:6.msf
Задание 7. Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)
Исходные файлы: alignment.fasta
Команда: infoalign alignment.fasta -refseq 2 -only -name -idcount
Полученные файлы: 7.txt
Задание 8. Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
Исходные файлы: chromosome.gb
Команда: featcopy chromosome.gb chromosome.gff
Полученные файлы:chromosome.gff
Задание 9. Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
Исходные файлы: 9.gb
Команда: extractfeat 9.gb -type CDS -describe product -outseq 9.fasta
Полученные файлы: 9.fasta
Задание 10. Перемешать буквы в данной нуклеотидной последовательности.
Исходные файлы: 3.fasta
Команда: shuffleseq 3.fasta 10.fasta
Полученные файлы:10.fasta
Задание 13. Найдите частоты кодонов в данных кодирующих последовательностях.
Исходные файлы: 3.fasta
Команда: cusp 3.fasta 13.fasta
Полученные файлы:13.fasta
Задание 15. Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов.
Исходные файлы: gene_sequences.fasta,
protein_alignment.fasta
Команда: tranalign gene_sequences.fasta protein_alignment.fasta 15.fasta
Полученные файлы:15.fasta
Задание 16. Постройте локальное множественное выравнивание трех нуклеотидных последовательностей.
Исходные файлы: 3.fasta
Команда:
Полученные файлы:10.fasta
Задание 17. Удалите символы гэпов и другие посторонние символы из последовательности.
Исходные файлы: 17.fasta
Команда: degapseq 17.fasta 17_1.fasta
Полученные файлы:17_1.fasta
Задание 18. Переведите символы конца строки в формат unix.
Исходные файлы: makeseq.fasta
Команда: noreturn makeseq.fasta 18.fasta
Полученные файлы:18.fasta
Задание 19. Создайте три случайных нуклеотидных последовательностей длины сто
Исходные файлы: --
Команда: makenucseq -amount 3 -length 100
Полученные файлы:makeseq.fasta
Задание 20. Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta.
Исходные файлы: sra_data.fastq
Команда: seqret sra_data.fastq fasta::sra_data.fasta
Полученные файлы:sra_data.fasta
© Угольков Ярослав, 2017