EMBOSS

Практикум №9

Команды для заданий

  1. Несколько файлов в формате fasta собрать в единый файл:
    ls -1 to_join/*.fasta > to_join/list.txt
    seqret @to_join/list.txt joined.fasta

  2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные файлы:
    cd to_split
    seqretsplit coding1.fasta -auto

  3. Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам и сохранить в одном fasta-файле:
    seqret @list.txt 3cds.fasta
  1. Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода:
    transeq coding1.fasta coding1prot.fasta -table 0
  2. Транслировать данную нуклеотидную последовательность в шести рамках:
    transeq coding.fasta codingprot.fasta -frame 6
  3. Перевести выравнивание из формата fasta в формат msf
    seqret fasta::alignment.fasta msf::alignment.msf
  4. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными:
    infoalign alignment.fasta -refseq 2 -outfile inforef.tab -only -name -idcount
  5. Перевести аннотации особенностей в записи формата .gb в табличный формат .gff:
    featcopy chromosome.gb -outfeat chromosome.gff
  6. Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; в описании каждой последовательности должна присутствовать функция белка:
    extractfeat chromosome_full.gb -type cds -describe product -outseq chr2cds.fasta
  7. Перемешать буквы в данной нуклеотидной последовательности:
    shuffleseq coding.fasta codingshuffled.fasta
  8. Для случайной последовательности проверить с помощью blastn сколько «достоверных» находок (E-value < 0.1) находится в нуклеотидном банке данных:
    makenucseq -amount 1 -length 100 -outseq random.fasta
    blastn -task blastn -query random.fasta -db nt -out random.blastn -evalue 10.0 -outfmt 7 -remote #evalue 10.0 is used to prove result list not empty

  9. Найти все открытые рамки длиной более X в бактериальной хромосоме:
    getorf -sequence chromosome_full.gb -outseq openframes.fasta -circular -table 11 -minsize 1000 #for X = 1000
  10. Найти частоты кодонов в данных кодирующих последовательностях:
    cusp coding.fasta coding.tb
  11. Найти частоты динуклеотидов в хромосоме человека, сравните их с ожидаемыми:
    wordcount hs_ref_GRCh38.p7_chr22.fa -wordsize 1 -outfile wc1.txt
    wordcount hs_ref_GRCh38.p7_chr22.fa -wordsize 2 -outfile wc2.txt
    # OR
    compseq hs_ref_GRCh38.p7_chr22.fa compseq.txt

  12. Выровнять кодирующие последовательности соответственно выравниванию кодируемых ими белков:
    tranalign -aseq 13/gene_sequences.fasta -bseq 13/protein_alignment.fasta -outseq 13/newaln.fasta
  13. Построить локальное множественное выравнивание трех нуклеотидных последовательностей:
    edialign 3randseqs.fasta -outseq 3rsnew.fasta -outfile 3rsnew.ea
  14. Удалить символы гэпов и другие посторонние символы из последовательности:
    degapseq alignment.fasta unalignment.fasta
  15. Перевести символы конца строки в формат UNIX:
    noreturn hallam.txt hallam2.txt
  16. Создать три случайных нуклеотидных последовательностей длиной 100:
    makenucseq -amount 3 -length 100 -outseq 3randseqs.fasta
  17. Файл с ридами в формате fastq перевести в формат fasta:
    seqret sra_data.fastq fasta::sra_data.fasta

P.S.: На Kodomo не обновлён BLAST+ и не умеет подключаться к удалённым серверам по SSL. Это решается обновлением BLAST+ до версии 2.6+. Иначе задание 11 невыполнимо в standalone blast.


© Arsenii Loginovskii, 2016-2018
Лого ФББ