Задания
Задание | Исходные данные | Команда | Выход |
---|---|---|---|
1. Несколько файлов в формате fasta собрать в единый файл. |
a, b | seqret 'fasta::?.fasta' -outseq ab.fasta |
ab |
Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы. |
ab | seqretsplit ab.fasta -auto |
a, b |
Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл. |
trgt | transeq target.fasta -table 5 -out target_pep.fasta |
pep |
Вывести открытые рамки длиной не менее заданной (50), имеющиеся в данной нуклеотидной последовательности. |
ev | getorf ebolavirus.fasta -minsize 50 -outseq ebola_orf.fasta |
orf |
Перевести выравнивание из формата fasta в формат msf. |
align | seqret muscle.fasta msf::muscle.msf |
msf |
Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа). |
align | infoalign muscle.fasta -refseq 2 -only -name -idcount idcount.txt |
idcount |
(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff. |
ev | featcopy ebolavirus.gb gff::feat.gff |
feat table |
extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями. |
ev.gb | extractfeat ebolavirus.gb -type CDS feat.fasta |
features |
Перемешать буквы в данной нуклеотидной последовательности. |
trgt | shuffleseq target.fasta shuffled_target.fasta |
shuffled |
Создать три случайных нуклеотидных последовательностей длины 100. |
- | makenucseq -amount 3 -length 100 random.fasta -auto |
rand |
Найти частоты кодонов в данных кодирующих последовательностях. |
feat | cusp feat.fasta cusp.txt |
cusp |
tranalign) Выровнять кодирующие последовательности соответственно выравниванию белков — их продуктов. |
??? |
||
Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей). |
align | degapseq muscle.fasta degap.fasta |
degapped |
Перевести символы конца строки из формата Windows в формат Unix. |
dos | noreturn doslike.fasta unixlike.fasta |
unix |
np fastq | seqret fastq::DRR048282.fastq fasta::sra.fasta |
fasta |
Скрипт #3
СкриптНайти частоты динуклеотидов в геноме бактерии, сравнить их с ожидаемыми и определить динуклеотид, частота которого наиболее отклоняется от наблюдаемой.
Скрипт находит наиболее отклоняющийся от ожидаемых частот динуклеотид и выводит его вместе с коэффициентом (ур. 1).
\begin{equation} k_{MN}=\frac{f_{MN}}{f_{M}*f_{N}} \end{equation}Для примера использования взяли геном бактерии Escherichia coli str. K-12 substr. MG1655. Наиболее отличающийся динуклеотид AG - его реальная встречаемость 0.713 от ожидаемой.