EMBOSS и локальный BLAST
Задание 1.
Упражнение 1. Несколько файлов в формате fasta собрать в единый файл
Входные файлы:
Файл 1
Файл 2
Данные файлы были размещены в папке pr9
Примененная команда bash:
seqret "pr9/*" allinone.fasta
Выводной файл
Упражнение 2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
Входной файл:
Файл с несколькими последовательностями
Примененная команда bash:
seqret allinone.fasta -ossingle2 -auto
Выводные файлы:
Файл 1
Файл 2
Упражнение 3. Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
Входные файлы:
Последовательность хромосомы
Список 3 кодирующих последовательностей
Примененная команда bash:
seqret @CDSlist.txt -outseq 3CDS.fasta
Выводной файл
Упражнение 4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.
Входной файл с 3 кодирующими последовательностями
Примененная команда bash:
transeq -table 0 3CDS.fasta protein9_4.fasta
Выводной файл
Упражнение 5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.
Входной файл с нуклеотидной последовательностью
Примененная команда bash:
getorf -minsize 9 nucl.fasta orf.fasta
Выводной файл (открытые рамки, длинною не менее 9 нуклеотидов)
Упражнение 6. Перевести выравнивание из формата fasta в формат msf.
Входной файл с выравниванием в формате fasta
Примененная команда bash:
seqret cs1cs2.fasta -outseq msf::aligncs1cs2pr9.msf
Выводной файл с выравниванием в формате msf
Упражнение 7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа)
Входной файл с выравниванием в формате fasta
Примененная команда bash:
infoalign alignp7pr9.fasta -outfile p7pr9.txt -refseq 2 -only -name -idcount
Выводной файл с числом совпадающих букв
Упражнение 8. (featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
Входной файл формата gb
Примененная команда bash:
featcopy sequence.gb sequence.gff -offormat2 gff
Выводной файл в табличном формате gff
Упражнение 9. (extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.
Входной файл формата gb
Примененная команда bash:
extractfeat sequence1.gb -type CDS -outseq p9pr9.fasta
Выводной файл
Упражнение 10. Перемешать буквы в данной нуклеотидной последовательности.
Входной файл с нуклеотидной последовательностью
Примененная команда bash:
shuffleseq nucl.fasta -outseq shuffle.fasta
Выводной файл
Упражнение 11. Создать три случайных нуклеотидных последовательностей длины 100.
Примененная команда bash:
makenucseq -amount 3 -length 100 -outseq makenucseq.fasta
Выводной файл
Упражнение 12. Найти частоты кодонов в данных кодирующих последовательностях.
Файл с 3 кодирующими последовательностями
Примененная команда bash:
compseq 3CDS.fasta -word 3 -outfile out.fasta
Выводной файл
Задание 2.
Выбранная мною задача: "4.По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product)"
Данную задачу я выполняла с помощью bash.
Входной файл формата gb
Примененная команда bash:
extractfeat sequence1.gb -type CDS -describe product -outseq prod_seq1.fasta
Выводной файл
Ссылка на скрипт