EMBOSS: пакет программ для анализа последовательностей

1. Отчёт о выполнении упражнений

1.Несколько файлов в формате fasta собрать в единый файл. Исходые данные:

seq0.fasta

seq1.fasta

seq2.fasta

Командная строка:
seqret "seq*.fasta" tog.fasta
результат:

tog.fasta

2.Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы. Исходые данные:

tog.fasta

Командная строка:
seqretsplit tog.fasta
результат:

c3649297-3649294.fasta

69037276-69037304.fasta

139175-139178.fasta

3.Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле. я взяла в файле координаты кодирующих последовательностей FT tRNA 1..65 FT gene 69..899 FT CDS 69..899 Особенный метод Исходые данные:

MH001205.embl

Командная строка:
extractfeat -sequence MH001205.embl -outseq mh001205.fasta
extractfeat -sequence MH001205.embl -sbegin_sequence 100 -send_sequence 500 -outseq mh001205_new.fasta -sreverse1 
- пытаюсь управлять выходом результат:

mh001205.fasta

Действенный метод Исходые данные:

MH001205.embl

Командная строка:
seqret embl::MH001205.embl[1:65]  all_cod.fasta
-запись первой кодирующей последовательности
seqret embl::MH001205.embl[69:899]  -stdout >> all_cod.fasta 
-запись в файл второй кодирующей последовательности В данной хромосоме больше кодирующих последовательностей нет, как и кодирующих на другой цепи. Но для задания вырежу одну последовательность с комплиментарной цепочки
seqret embl::MH001205.embl[69:899:r]  -stdout >> all_cod.fasta
- запись в файл последовательности комплиментарной цепи на которой тоже могут быть кодирующие участки. результат:

all_cod.fasta

eno.txt MH001205.embl seqret @eno.txt eno.fasta 4.Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл. Исходые данные:

mus_feat.fasta

Командная строка:
transeq mus_feat.fasta -table 1 -frame 1 mus_prot.fasta
результат:

mus_prot.fasta

5.Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности. Исходые данные:

sequence_mus.gb

Командная строка:
getorf  sequence_mus.gb -minsize 20 orf_mus.fasta
результат:

orf_mus.fasta

6.Перевести выравнивание из формата fasta в формат msf. Исходые данные:

needle.fasta

Командная строка:
seqret needle.fasta msf::needle.msf
результат:

needle.msf

7.Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа). Исходые данные: eno_for_needle.txt файл с именами последовательностей Командная строка:
seqret @eno_for_needle.txt eno_for_needle.fasta читаем последовательности
muscle -in eno_for_needle.fasta -out eno_ali.fasta строим по ним выравнивания
infoalign  eno_ali.fasta refseq=2 -only -name -idcount eno_ali.infoalign
результат:

eno_ali.infoalign

8.(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff. Исходые данные: sequence_mus.gb

sequence_mus.gb

Командная строка:
featcopy sequence_mus.gb sequence_mus.gff
результат:

sequence_mus.gff

9.(extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями. Исходые данные:

MH001205.embl

Командная строка:
extractfeat -sequence MH001205.embl -outseq mh001205.fasta
результат:

mh001205.fasta

10.Перемешать буквы в данной нуклеотидной последовательности. Исходые данные:

seq2.fasta

Командная строка:
shuffleseq  seq2.fasta seq2_sh.fasta
результат:

seq2_sh.fasta

11.Создать три случайных нуклеотидных последовательностей длины 100. Исходые данные: - Командная строка:
makenucseq -amount 3 -length 100  -outseq 3_random.fasta -auto
результат:

3_random.fasta

12.Найти частоты кодонов в данных кодирующих последовательностях. Исходые данные:

mh001205.fasta

Командная строка:
cusp mh001205.fasta codon_cusp
результат:

codon_cusp

13.(tranalign) Выровнять кодирующие последовательности соответственно выравниванию белков — их продуктов. Исходые данные:

mus_nuc_2.fasta-просто 2 кодирующих последовательности белка

mus_prot_2.fasta -транслированные белки с этих последовательтностей (transeq)

mus_2prot.needle -выравнивание белков needle (

needle mus_prot_2.fasta:NC_000076_6467_6623_1  
mus_prot_2.fasta:NC_000076_57034_57085_1 -aformat fasta -auto -outfile mus_2prot.needle
)

Командная строка:
mus_nuc_2.fasta mus_2prot.needle  ali_nuc_tranalign
результат:

ali_nuc_tranalign

*работает и с последовательностями в фасте, но не имеет никакого смысла, тк гэпами просто заполняется разность в длинне. 14.Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей). Исходые данные:

mus_2prot.needle -выравнивание белков needle

Командная строка:
degapseq mus_2prot.needle degap_needle
результат:

degap_needle Получился обычный фаста формат

15.Перевести символы конца строки из формата Windows в формат Unix. Исходые данные:

experiments/win.docx

Командная строка:
noreturn win.docx win.noreturn -system unix
результат:

experiments/win.noreturn

16.Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta. Исходые данные:

seq2.fasta

Командная строка:
sed -n '1~4s/^@/>/p;2~4p' sra_data.fastq > sra_data.fasta
результат:

sra_data.fasta

Скрипт.

ССылка на скрипт

Описание: выдача программы состоит из нескольких файлов: в файле "random" -сгенерированные 100 последовательностей с заданной длинной; при этом создается локальная база данных для данного генома (файлы вида name.fasta.*); при запуске программы на консоли появляетя среднее значение.

Учебная почта


© Бердникович Екатерина, 2017