EMBOSS: пакет программ для анализа последовательностей


Задание 1. Несколько файлов в формате fasta собрать в единый файл

Исходные файлы:1.fasta, 2.fasta, 3.fasta.
Команда: seqret "*.fasta" qwe.fasta
Полученные файлы:qwe.fasta

Задание 2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

Исходные файлы:task2.fasta
Команда: seqretsplit task2.fasta
Полученные файлы:q.fasta, w.fasta, e.fasta.

Задание 3. Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле

Исходные файлы:task3.txt.
Команда: seqret @task3.txt final.fasta
Полученные файлы:final.fasta

Задание 4. Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.

Исходные файлы: task4.fasta
Команда: transeq -table 0 task4.fasta task4_p.fasta
Полученные файлы:task4_p.fasta

Задание 5. Tранслировать данную нуклеотидную последовательность в шести рамках.

Исходные файлы: task4.fasta
Команда: transeq -frame 6 task4.fasta task5.fasta
Полученные файлы: task5.fasta

Задание 6. Перевести выравнивание и из fasta формате в формат .msf

Исходные файлы: 6.fasta
Команда: seqret 6.fasta msf::6.msf
Полученные файлы:6.msf

Задание 7. Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)

Исходные файлы: alignment.fasta
Команда: infoalign alignment.fasta -refseq 2 -only -name -idcount
Полученные файлы: 7.txt

Задание 8. Перевести аннотации особенностей в записи формата .gb в табличный формат .gff

Исходные файлы: chromosome.gb
Команда: featcopy chromosome.gb chromosome.gff
Полученные файлы:chromosome.gff

Задание 9. Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)

Исходные файлы: 9.gb
Команда: extractfeat 9.gb -type CDS -describe product -outseq 9.fasta
Полученные файлы: 9.fasta

Задание 10. Перемешать буквы в данной нуклеотидной последовательности.

Исходные файлы: 3.fasta
Команда: shuffleseq 3.fasta 10.fasta
Полученные файлы:10.fasta

Задание 13. Найдите частоты кодонов в данных кодирующих последовательностях.

Исходные файлы: 3.fasta
Команда: cusp 3.fasta 13.fasta
Полученные файлы:13.fasta

Задание 15. Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов.

Исходные файлы: gene_sequences.fasta, protein_alignment.fasta
Команда: tranalign gene_sequences.fasta protein_alignment.fasta 15.fasta
Полученные файлы:15.fasta

Задание 16. Постройте локальное множественное выравнивание трех нуклеотидных последовательностей.

Исходные файлы: 3.fasta
Команда:
Полученные файлы:10.fasta

Задание 17. Удалите символы гэпов и другие посторонние символы из последовательности.

Исходные файлы: 17.fasta
Команда: degapseq 17.fasta 17_1.fasta
Полученные файлы:17_1.fasta

Задание 18. Переведите символы конца строки в формат unix.

Исходные файлы: makeseq.fasta
Команда: noreturn makeseq.fasta 18.fasta
Полученные файлы:18.fasta

Задание 19. Создайте три случайных нуклеотидных последовательностей длины сто

Исходные файлы: --
Команда: makenucseq -amount 3 -length 100
Полученные файлы:makeseq.fasta

Задание 20. Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta.

Исходные файлы: sra_data.fastq
Команда: seqret sra_data.fastq fasta::sra_data.fasta
Полученные файлы:sra_data.fasta

© Угольков Ярослав, 2017