Название упражнения | Команда | Ссылка на результат/исходные данные |
1.Несколько файлов в формате fasta собрать в единый файл. |
seqret @list -out all |
list (1).fasta (2).fasta (3).fasta all |
2.Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы. |
seqretsplit all |
splitted files all |
3.Из файла с аннотированной хромосомой в формате gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле. |
seqret @3 3cds.fasta |
gb file coordinates of coding sequences fasta file |
4.Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл. |
transeq -table 0 -sequence 5.fasta -outseq 4.fasta |
fasta-file with coding sequence translated coding sequences |
5.Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности. |
getorf 5.fasta -minsize 45 5orf.fasta |
fasta-file open reading frames |
6.Перевести выравнивание из формата fasta в формат msf. |
seqret "(6).fasta" msf::6.msf |
fasta-file msf.file |
7.Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа). |
infoalign 7.fasta -refseq 2 -onli -name -idcount 71.fasta |
file with alignments result |
8.(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff. |
featcopy sequence.gb sequence.gff |
sequence.gb sequence.gff |
9.(extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями. |
extractfeat -type CDS 9.gb 9.fasta |
file.gb file.fasta |
10.Перемешать буквы в данной нуклеотидной последовательности. |
shuffleseq (1).fasta (1)shuf.fasta |
(1).fasta (1)shuf.fasta |
11.Создать три случайных нуклеотидных последовательностей длины 100. |
makenucseq -amount 3 -length 100 -outseq 11 |
file with 3 sequences |
12.Найти частоты кодонов в данных кодирующих последовательностях. |
cusp all 12.fasta |
coding sequences codon's frequency |
13.(tranalign) Выровнять кодирующие последовательности соответственно выравниванию белков — их продуктов |
tranalign -asequence 1pr.fasta -bsequence 2pr.fasta -outseq 13.fasta |
coding sequences aligned prot_sequences aligned nucl_sequences |
14.Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей). |
degapseq 14.fasta > 14degap |
with gaps without gaps |
15.Перевести символы конца строки из формата Windows в формат Unix. |
noreturn windows.txt unix.txt -system unix |
windows.txt unix.txt |
16.Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta. |
seqret "sra_data.fastq" fasta::16.fasta |
fastq-file fasta-file |
Найти частоты динуклеотидов в геноме бактерии, сравнить их с ожидаемыми и определить динуклеотид, частота которого наиболее отклоняется от наблюдаемой. Подсказка: ожидаемая частота XY = (наблюдаемая частота X) * (наблюдаемая частота Y). сценарий input-file output-file
© Цыганов Кирилл, 2017