EMBOSS

Отчет

Упражнения:

1) (seqret) Несколько файлов в формате fasta собрать в единый файл.

Команда seqret @mylist.txt mysequences.fasta

содержимое mylist.txt:

embl:AEC06720.1

embl:x65923

На выходе файл с обоими последовательностями

2) (seqretsplit) Один файл в формате fasta с несколькими последовательностями

разделить на отдельные fasta файлы.

seqretsplit mysequences.fasta

на выходе два файла aec06720.1.fasta и x65923.fasta

3) (seqret) Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до" и сохранить в одном fasta файле.

seqret @mylist_1.txt out.fasta

Содержание @mylist_1.txt:

sequence_1.fasta[444:941]

sequence_1.fasta[1624:2730]

sequence_1.fasta[4607:5770]

4) (transeq) Транслировать кодирующие последовательности, лежащие в одном fasta файле,

в аминокислотные, используя указанную таблицу генетического кода.

Результат - в одном fasta файле.

Взят файл out.fasta, полученный в прошлом задании.

transeq out.fasta

5) (transeq) Транслировать данную нуклеотидную последовательность в шести рамках.

transeq x65923.fasta out_frames.fasta -frame=6

6) (seqret) Перевести выравнивание и из fasta формате в формат .msf

seqret mysequences.fasta msf::mysequences.msf

7) (infoalign) Выдать в выходной поток число совпадающих букв

между второй последовательностью выравнивания и всеми остальными

(на выходе только имя последовательности и число)

infoalign my_sequences.fasta info_seq.txt -only -name -idcount

cat mylist.txt | tail -1 | head -2

8) (featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff

featcopy annotation.gb -out annotation.gff

9) (extractfeat) Из данного файла с хромосомой в формате .gb

получить fasta файл с кодирующими последовательностями

extractfeat U04608.1.gbk -type CDS 1.txt

10) (shuffle) Перемешать буквы в данной нуклеотидной последовательности;

shuffle x65923.fasta > x65923_shuf.fasta

Последовательности были выровнены с помощью bl2seq,

e_value = 0,35, Max_score = 17.1, Total_score = 43.5, Query_cover = 16%.

В общем хорошо перетасовалось.

11) (cusp) Найдите частоты кодонов в данных кодирующих последовательностях

cusp x65923.fasta x65923_codon.fasta

12) (compsec) Найдите частоты динуклеотидов в данной

нуклеотидной последовательности и сравните их с ожидаемыми

compseq x65923.fasta -word 2 -calcfreq two.compseq

13) (tranalign) Выровняйте кодирующие последовательности

соответственно выравниванию белков - их продуктов

tranalign mysequences.fasta mysequences_pr.fasta out.fasta

Задание 1

Трансляции открытых рамок с помощью команды getorf.

getorf sequence_ch_2.fasta -circular -minsize 180 -table 11 -find 0

Список координат и ориентаций найденных открытых рамок с помощью infoseq.

infoseq nc_009050.orf -only -name -description -length > task_1_table.txt

файл tas_1_table.txt

Приведение файла в необходимый вид было осуществлено с помощью python скрипта.

python скрипт

Файл приведен в вид : Name from to ori Length

ссылка на файл

Задание 2

Далее был скачен файл NC_009050.ptt и приведен в нужный вид(locus_tag,from,to,ori,length,PID,product)

ссылка на файл

После этого файлы task_1_table.txt и NC_009050.ptt были совмещены и отсортированны по start.

результат совмещения

Можно наблюдать, что для каждого аннотированного файла есть открытая рамка считывания,найденная с помощью getorf,

которая не включает стоп-кодоны(поэтому координаты немного другие).

Однако открытых рамок естественно немного больше чем аннотированных последовательностей.