= EMBOSS =

== Упражнения: ==

1. C помощью команды "seqret *.fasta all.fasta" объединил все файлы ([[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/1/1.fasta|1]],[[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/1/2.fasta|2]],[[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/1/3.fasta|3]]) формата fasta в [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/1/all.fasta|один]].

2. C помощью  команды "seqretsplit all.fasta" разделил полученный в 1 упражнении [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/2/all.fasta|файл]] на три отдельных ([[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/2/np_214350.fasta|1]], [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/2/thetn_1-80.fasta|2]], [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/2/f0qte2_vulm7.fasta|3]]), которым программа дала имена последовательностей.

4. Взял ген ribosomal protein S4 ([[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/s4.fasta|fasta]]) мха из 7 практикума. [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/rps4.fasta|Белок]]

{{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/transeq.png}}

5. Взял тот же ген ribosomal protein S4 ([[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/s4.fasta|fasta]]). [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/res.fasta|Результат]]

{{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/transeqf.png}}

6. Взял выравнивание с прошлого семестра ([[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/6/align7.fasta|fasta]]).
[[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/5/align7.msf|Результат]]

{{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/6/align.png}}

== Задания ==

Организм – архея из 1-го семестра Vulcanisaeta moutnovskia 768-28

[[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/NC_015151.1.fasta|NC_015151.1.fasta]]

[[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/NC_015151.1.gb|NC_015151.1.gb]]


getorf -table 11 -minsize 180 -find 0 NC_015151.1.fasta 
[[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/output.fasta|output.fasta]]     ## Получение открытых рамок, параметры: таблица генетического кода, минимальная длина открытой рамки, трансляция открытых рамок от стоп кодона до стоп кодона на выход

infoseq -only -name -length -sprotein1 -description output.fasta > 
[[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/output.txt|output.txt]]      ## имя рамки, длина трансляции, описание с координатами 

Таблица открытых рамок: [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/one.xlsx|one.xlsx]]

Таблица анотированных генов: [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/anot.xlsx|anot.xlsx]]
 
Сводная таблица: [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/compl.xlsx|compl.xlsx]]


Что я увидел:

1) Открытых рамок гораздо больше, чем анотированных генов. Видимо, не каждая открытая рамка гарантирует ген.

2) Аннотации длиной менее 60 а.о. не имеют соответсвующих ORF-ов, так как мы искали только длинные открытые рамки (больше 180 п.н.)

{{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/not_long.png}}

Рис.1

3) ORF-ы начинаются раньше, чем соответствующие им аннотации (от двух до пары десятков нуклеотидов)


{{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/early.png}}

Рис.2

4) Перекрывание антипараллельных рамок (более 150 п.н.)

{{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/antipar.png}}

Рис.3

5) Не для всех белков были найдены открытые рамки. Возможно это из-за того, что ORF-ы были определены от стоп- до стоп-кодонов и программа не обращала внимания на старт кодоны, с которых действительно начинаются последовательности кодирующие эти белки.

{{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/lone.png}}

Рис.4