= EMBOSS = == Упражнения: == 1. C помощью команды "seqret *.fasta all.fasta" объединил все файлы ([[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/1/1.fasta|1]],[[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/1/2.fasta|2]],[[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/1/3.fasta|3]]) формата fasta в [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/1/all.fasta|один]]. 2. C помощью команды "seqretsplit all.fasta" разделил полученный в 1 упражнении [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/2/all.fasta|файл]] на три отдельных ([[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/2/np_214350.fasta|1]], [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/2/thetn_1-80.fasta|2]], [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/2/f0qte2_vulm7.fasta|3]]), которым программа дала имена последовательностей. 4. Взял ген ribosomal protein S4 ([[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/s4.fasta|fasta]]) мха из 7 практикума. [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/rps4.fasta|Белок]] {{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/transeq.png}} 5. Взял тот же ген ribosomal protein S4 ([[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/s4.fasta|fasta]]). [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/res.fasta|Результат]] {{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/transeqf.png}} 6. Взял выравнивание с прошлого семестра ([[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/6/align7.fasta|fasta]]). [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/5/align7.msf|Результат]] {{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/6/align.png}} == Задания == Организм – архея из 1-го семестра Vulcanisaeta moutnovskia 768-28 [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/NC_015151.1.fasta|NC_015151.1.fasta]] [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/NC_015151.1.gb|NC_015151.1.gb]] getorf -table 11 -minsize 180 -find 0 NC_015151.1.fasta [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/output.fasta|output.fasta]] ## Получение открытых рамок, параметры: таблица генетического кода, минимальная длина открытой рамки, трансляция открытых рамок от стоп кодона до стоп кодона на выход infoseq -only -name -length -sprotein1 -description output.fasta > [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/output.txt|output.txt]] ## имя рамки, длина трансляции, описание с координатами Таблица открытых рамок: [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/one.xlsx|one.xlsx]] Таблица анотированных генов: [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/anot.xlsx|anot.xlsx]] Сводная таблица: [[http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/compl.xlsx|compl.xlsx]] Что я увидел: 1) Открытых рамок гораздо больше, чем анотированных генов. Видимо, не каждая открытая рамка гарантирует ген. 2) Аннотации длиной менее 60 а.о. не имеют соответсвующих ORF-ов, так как мы искали только длинные открытые рамки (больше 180 п.н.) {{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/not_long.png}} Рис.1 3) ORF-ы начинаются раньше, чем соответствующие им аннотации (от двух до пары десятков нуклеотидов) {{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/early.png}} Рис.2 4) Перекрывание антипараллельных рамок (более 150 п.н.) {{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/antipar.png}} Рис.3 5) Не для всех белков были найдены открытые рамки. Возможно это из-за того, что ORF-ы были определены от стоп- до стоп-кодонов и программа не обращала внимания на старт кодоны, с которых действительно начинаются последовательности кодирующие эти белки. {{http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/lone.png}} Рис.4