EMBOSS

Задание №1.

Собрать несколько fasta-файлов в один.

esurikova@kodomo:~/public_html/term3/pr9$ seqret
Read and write (return) sequences
Input (gapped) sequence(s): AAC748**.*.fasta
output sequence(s) [3_cds_aac74885.fasta]: 1task.fasta

Входные данные: первая последовательность, вторая последовательность, третья последовательность.

Результат: соединённые последовательности.

Также seqret может принимать на вход запись в базе данных (например, seqret "tembl:ab*" aball.seq - записать последовательности, начинающиеся с "ab", в файл aball.seq), выдать обратную комплиментарную последовательность (seqret -srev), выделить определённые позиции (seqret -sbegin 5 -send 25), записать файл не в fasta-формате (seqret -outseq gcg::x65923.gcg), перевести выравнивания из одного формата в другой (seqret alignment.fasta aln::alignment.aln).

Задание №2.

Разделить один fasta-файл на несколько по последовательностям.

 
esurikova@kodomo:~/public_html/term3/pr9$ seqretsplit
Read sequences and write them to individual files
Input (gapped) sequence(s):  ../to_split/coding2.fasta
output sequence(s) [3_cds_aac73124.fasta]:

Входные данные: последовательность.

Pезультат: последовательности.

Задание №3.

Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.

 
esurikova@kodomo:~/public_html/term3/pr9$ seqret @coordinates.txt 3task.fasta
Read and write (return) sequences

Входные данные: мтДНК Felis Catus, файл, содержащий координаты.

Результат: последовательность, обрезанная по нужным координатам.

Задание №4.

Транслировать последовательность.

esurikova@kodomo:~/public_html/term3/pr9$ transeq coding.fasta -table 11 -outseq 4task.fasta
Translate nucleic acid sequences

Входные данные: нуклеиновая последовательность.

Результат: последовательность аминокислот.

Использование последующих функций меняет таблицу генетического года или фрейм, с которого производится чтение.

 
   -frame              menu       [1] Frame(s) to translate (Values: 1 (1); 2
                                  (2); 3 (3); F (Forward three frames); -1
                                  (-1); -2 (-2); -3 (-3); R (Reverse three
                                  frames); 6 (All six frames))
   -table              menu       [0] Code to use (Values: 0 (Standard); 1
                                  (Standard (with alternative initiation
                                  codons)); 2 (Vertebrate Mitochondrial); 3
                                  (Yeast Mitochondrial); 4 (Mold, Protozoan,
                                  Coelenterate Mitochondrial and
                                  Mycoplasma/Spiroplasma); 5 (Invertebrate
                                  Mitochondrial); 6 (Ciliate Macronuclear and
                                  Dasycladacean); 9 (Echinoderm
                                  Mitochondrial); 10 (Euplotid Nuclear); 11
                                  (Bacterial); 12 (Alternative Yeast Nuclear);
                                  13 (Ascidian Mitochondrial); 14 (Flatworm
                                  Mitochondrial); 15 (Blepharisma
                                  Macronuclear); 16 (Chlorophycean
                                  Mitochondrial); 21 (Trematode
                                  Mitochondrial); 22 (Scenedesmus obliquus);
                                  23 (Thraustochytrium Mitochondrial))

Задание №5.

Транслироваь последовательность в шести фреймах.

 
esurikova@kodomo:~/public_html/term3/pr9$ transeq coding.fasta -frame 6 -table 11 -outseq 5task.fasta
Translate nucleic acid sequences

Входные данные: нуклеиновая последовательность.

Результат: шесть последовательностей аминокислот.

Задание №6.

Перевести выравнивание из fasta-формата в .msf.

esurikova@kodomo:~/public_html/term3/pr9$ seqret protein_alignment.fasta msf::protein_aligment.msf
Read and write (return) sequences

Входные данные: fasta-выравнивание.

Результат: msf-выравнивание.

Задание №7.

Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными.

esurikova@kodomo:~/public_html/term3/pr9$ infoalign  -refseq 2 -only -name -idcount protein_alignment.fasta 7task.txt
Display basic information about a multiple sequence alignment

Входные данные: fasta-выравнивание.

Результат: информация о выравнивании.

Некоторые другие возможные параметры infoalign ниже.

   -name               boolean    [@(!$(only))] Display 'name' column
   -seqlength          boolean    [@(!$(only))] Display 'seqlength' column
   -alignlength        boolean    [@(!$(only))] Display 'alignlength' column
   -gaps               boolean    [@(!$(only))] Display number of gaps
   -gapcount           boolean    [@(!$(only))] Display number of gap
                                  positions
   -idcount            boolean    [@(!$(only))] Display number of identical
                                  positions
   -simcount           boolean    [@(!$(only))] Display number of similar
                                  positions
   -diffcount          boolean    [@(!$(only))] Display number of different
                                  positions
   -change             boolean    [@(!$(only))] Display % number of changed
                                  positions
   -weight             boolean    [@(!$(only))] Display 'weight' column

   -matrix             matrix     [EBLOSUM62 for protein, EDNAFULL for DNA]
                                  This is the scoring matrix file used when
                                  comparing sequences. By default it is the
                                  file 'EBLOSUM62' (for proteins) or the file
                                  'EDNAFULL' (for nucleic sequences). These
                                  files are found in the 'data' directory of
                                  the EMBOSS installation.
   -refseq             string     [0] If you give the number in the alignment
                                  or the name of a sequence, it will be taken
                                  to be the reference sequence. The reference
                                  sequence is the one against which all the
                                  other sequences are compared. If this is set
                                  to 0 then the consensus sequence will be
                                  used as the reference sequence. By default
                                  the consensus sequence is used as the
                                  reference sequence. (Any string is accepted)

Задание №8.

Перевести аннотации особенностей в записи формата .gb в табличный формат .gff.

esurikova@kodomo:~/public_html/term3/pr9$ featcopy catmt.gb 8task.gff
Read and write a feature table

Входные данные: мтДНК Корицы.

Результат: аннотации особенностей в gff-формате.

Задание №9.

Из gb-файла получить fasta-файл с кодирующими последовательностями.

esurikova@kodomo:~/public_html/term3/pr9$ extractfeat -type CDS catmt.gb 9task.fasta
Extract features from sequence(s)

Входные данные: мтДНК Корицы.

Результат: кодирующие последовательности в fasta-формате.

Задание №10.

Перемешать буквы в последовательности.

esurikova@kodomo:~/public_html/term3/pr9$  shuffleseq coding.fasta 10task.fasta Shuffle a set of sequences maintaining composition

Входные данные: последовательность.

Результат: перемешанная последовательность.

Задание №13

Найти частоты кодонов в последовательностях.

esurikova@kodomo:~/public_html/term3/pr9$ cusp 1task.fasta 13task.txt
Create a codon usage table from nucleotide sequence(s)

Входные данные: последовательности.

Результат: информация о частоте кодонов.

Задание №15

Выровнять кодирующие последовательности соответственно выравниванию белков - их продуктов.

esurikova@kodomo:~/public_html/term3/pr9$ tranalign 15task_2.fasta 15task_1.fasta
Generate an alignment of nucleic coding regions from aligned proteins
(aligned) nucleotide output sequence set [1_cds_acm26282.fasta]: 15task.fasta

Входные данные: нулеотидные последовательности, белковое выравнивание.

Результат: выравнивание нуклеотидных последовательностей.

Задание №16

Построить локальное множественное выравнивание трех нуклеотидных последовательностей.

esurikova@kodomo:~/public_html/term3/pr9$ edialign 16task_1.fasta
Local multiple alignment of sequences
Output file [16task_1.edialign]: 16task.fasta
(gapped) output sequence(s) [16task_1.fasta]: 16task.fasta

Входные данные: нулеотидные последовательности.

Результат: локальное выравнивание нуклеотидных последовательностей.

Задание №17

Удалите символы гэпов и другие посторонние символы из последовательности.

esurikova@kodomo:~/public_html/term3/pr9$ degapseq alignment.fasta 17task.fasta
Remove non-alphabetic (e.g. gap) characters from sequences

Входные данные: последовательности..

Результат: отредактированные последовательности.

Задание №18

Перевести символы конца строки в формат unix.

esurikova@kodomo:~/public_html/term3/pr9$ noreturn 17.txt 18.txt
Remove carriage return from ASCII files

Входные данные: текстовой файл..

Результат: текстовой файл без символов возврата каретки.

Задание №19

Создать три случайных нуклеотидных последовательностей длины сто.

esurikova@kodomo:~/public_html/term3/pr9$  makenucseq -amount 3 -length 100 19task.fasta
Create random nucleotide sequences
Codon usage file (optional):

Результат: три рандомных последовательности длины 100.

Задание №20

Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta.

esurikova@kodomo:~/public_html/term3/pr9$ seqret sra_data.fastq fasta::sra_data.fasta
Read and write (return) sequences

Входные данные: файл с ридами.

Результат: риды в формате фаста.



© Сурикова Елена 2016