Практикум 9. Работа с пакетом emboss.

Задание 1. Упражнения

1. Несколько файлов в формате fasta собрать в единый файл.

seqret "task1_*.fasta" task1_result.fasta

Исходные файлы:task1_1.fasta, task1_2.fasta, task1_3.fasta
Результат работы программы:task1_result.fasta

2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.

seqretsplit task1_result.fasta -auto

Исходный файл:task1_result.fasta
Результат работы программы:ddx3x_human.fasta, h31_human.fasta, tert_human.fasta
Результирующие файлы программа называла по названиям последовательностей в исходном файле.

4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.

transeq task4_input.fasta task4_result.fasta -frame=1

Исходный файл:task4_input.fasta
Результат работы программы: task4_result.fasta

7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).

infoalign -refseq=2 -only -idcount -name -sequence task14_input.txt -outfile katya.txt

Исходный файл:task14_input.txt
Результат работы программы: katya.txt

8. (featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.

featcopy task9_input.gb gff::task8_output.gff

Исходный файл:task9_input.gb
Результат работы программы: task8_output.gff

9. (extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.

extractfeat task9_input.gb task9_output.fasta -type CDS

Исходный файл:task9_input.gb
Результат работы программы: task9_output.gff

10. Перемешать буквы в данной нуклеотидной последовательности.

shuffleseq -sequence task10_input.fasta -outseq task10_output.fasta

B>Исходный файл: task10_input.fasta
Результат работы программы: task10_output.fasta

11. Создать три случайных нуклеотидных последовательностей длины 100.

makenucseq -length 100 -amount 3 -outseq task11_result.fasta -auto

Альтернативный вариант с использованием скрипта python:

python pr9_task11.py > task11_python_result.fasta

Результат работы программ: makenucseq, питон.

12. Найти частоты кодонов в данных кодирующих последовательностях.

cusp -sequence task10*.fasta -outfile task12_result.fasta

Исходные файлы: task10_input.fasta, task10_output.fasta
Результат работы программы: task12_result.fasta

14. Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).

degapseq task14_input.txt task14_output.seq

Исходный файл:task14_input.txt
Результат работы программы: task14_output.seq

15. Перевести символы конца строки из формата Windows в формат Unix.

noreturn task15_input.fasta task15_output.fasta

Исходный файл:task15_input.txt
Результат работы программы: task15_output.seq

Задание 2.

Создание списка кодирующих последовательность с указанной функцией продукта можно выполнить командой extractfeat:

extractfeat task9_input.gb fasta::assign2_output.fasta -describe product

Исходный файл:task9_input.gb
Результат работы программы: assign2_output.fasta