EMBOSS: пакет программ для анализа последовательностей


1. Несколько файлов в формате fasta собрать в единый файл
Создала пять fasta-файлов с аминокислотными последовательностями белка тубулина у организмов из разных систематических групп. В команде ниже, @file_list.txt - список файлов с последовательностями (входной файл), all.fasta - объединенный файл с 5ю последовательностями (выходной файл).
> Архив с данными
seqret -seq @file_list.txt -out all.fasta

2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
Для выполнения этого задания в качестве входного файла был использован файл all.fasta из предыдущего задания. Выход команды опредеделяется аргументом "auto", который называет файлы в соотвествии с названиями fasta-последовательностей.
> Архив с данными
seqretsplit -seq @all.fasta

3. Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
Для выполнения задания был использован геном E. Coli, штамм REL606. В текстовом файле gene.txt записаны координаты кодирующих последовательностей, которые необходимо вырезать. Выходной файл 3_genes.fasta содержит три вырезанные последовательности.
> Архив с данными
seqret @gene.txt 3_genes.fasta

4. Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
> Входной файл 3_genes.fasta с 3мя нуклеотидными последовательностями
> Выходной файл 3_prots.fasta с 3мя аминокислотными последовательностями

transeq -table 0 3_genes.fasta 3_prots.fasta

5. Транслировать данную нуклеотидную последовательность в шести рамках.
> Входной файл coding.fasta c нуклеотидной последовательностью для трансляции
> Выходной файл 6frames.fasta с 6ю аминокислотными последовательностями (по 6ти рамкам)

transeq coding.fasta 6frames.fasta -frame 6 -table 0

6. Перевести выравнивание из .fasta формата в .msf формат .
> Входной файл alignment.fasta с выравниванием в формате .fasta
> Выходной файл alignment.msf с выравниванием в формате .msf

seqret alignment.fasta -outseq msf::alignment.msf

7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)
> Входной файл alignment.fasta с выравниванием в формате .fasta
> Выходной файл ref_second.txt содержащий число совпадающих букв второй последовательности со всеми остальными. (Вторая последовательность в данном случае - референс?)

infoalign alignment.fasta -outfile stdout -refseq 2 -only -name -idcount>ref_second.txt

8. Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
> Входной файл chromosome.gb - аннотации особенностей
> Выходной файл chromosome.gff - тоже аннотации, но в табличном формате .gff

featcopy chromosome.gb chromosome.gff

9. Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями;
* добавить в описание каждой последовательности функцию белка (из поля product)
> Входной файл REL606.gb
> Выходной файл coding.fasta - файл с кодирующими последовательностями с описанием функции белка каждой последовтельности

extractfeat REL606.gb coding.fasta -describe product -type CDS

10. Перемешать буквы в данной нуклеотидной последовательности.
> Входной файл coding.fasta
> Выходной файл coding_shuffl.fasta - файл с "перемешанными нуклеотидами"

shuffleseq coding.fasta coding_shuffl.fasta

13.Найдите частоты кодонов в данных кодирующих последовательностях
> Входной файл coding.fasta
> Выходной файл coding.cusp - файл с частотами кодонов

cusp coding.fasta coding.cusp

15. Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов.
>На вход: Файл gene_sequences.fasta с нуклеотидными последовательностями и файл protein_alignment.fasta с их белковым выравниванием
> Выходной файл nucleotide_alignment.fasta с выравниванием нуклеотидных последовательностей

tranalign gene_sequences.fasta protein_alignment.fasta nucleotide_alignment.fasta

17. Удалите символы гэпов и другие посторонние символы из последовательности.
>На вход: файл alignment.fasta
>На выходе: файл clean.fasta - тут выравнивание без гэпов.

degapseq alignment.fasta clean.fasta

19. Создайте три случайных нуклеотидных последовательностей длины сто
Входных данных нет, но получили три случайных нуклеотидных последовательсти длины сто каждая, они записаны в файле random.fasta.

makenucseq -amount 3 -length 100 random.fasta

20.Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta
>Вход: файл sra_data.fastq
>Выход:файл sra_data.fasta
seqret sra_data.fastq fasta::sra_data.fasta

Назад