#!/bin/env bash efetch -db 'pubmed' -id ${1} -format 'abstract' > abstract_pmid${1}.txt elink -db 'protein' -id "$(cat ${2} | tr '\n' ',')" -target 'nuccore' | efetch -format 'acc' | sort ## 1 # Создает два fasta-файла с последовательностями из файла DPO3A.fasta из девятого прака прошлого семестра. # (Выравнивание альфа-субединиц ДНК-полимеразы III E. coli и B. subtilis). seqretsplit ../../term2/pr9/DPO3A.fasta -filter ## 2 # Печатает в stdout обратную комплементарную последовательность первых 100 нуклеотидов # из файла CP005973.gb (хромосома бактерии, по которой я писал мини-обзор в первом семестре, # Photobacterium gaetbulicola). seqret gb::CP005973.gb[1:100:r] -filter ## 3 # Транслирует последовательности из файла first_10_CDS.fasta (10 CDS на хромосоме из пред. упражнения). transeq first_10_cds.fasta -frame F -table 11 -filter ## 4 # Ищет ORF в первых 10000 нуклеотидов этой хромосомы. getorf first_10k.fasta -minsize 300 -table 11 -find 1 -filter ## 5 # Печатает в stdout выравнивание полимераз из первого упр. seqret ../../term2/pr9/DPO3A.fasta msf::stdout -filter ## 6 # Число совпадающих букв между второй последовательностью и остальными в выравнивании # альфа-субъединиц ДНК-полимеразы III рода Photobacterium. Вторая последовательность тоже есть # в выводе, для нее выводимое число совпадает с длиной последователоьности. infoalign pol3a_aligned.fasta -refseq 2 -filter | tail -n +2 | cut -f 2,7 ## 7 # Печатает в stdout аннотацию хрмосомы в формате gff. featcopy CP005973.gb gff::stdout -filter ## 8 # Сохзраняет в файл cp005973.fasta CDS c хромосомы. extractfeat CP005973.gb cp005973.fasta -type CDS -filter ## 10 # Три случайных нуклеотидных последовательности длиной 300. makenucseq ncbi::random.ncbi -amount 3 -length 300 -filter ## 11 # Частоты кодонов во всех CDS с хромосомы compseq cp005973.fasta -word 3 -frame 1 -filter ## 12 # Делает выравнивание нуклеотидных последовательностей генов полимераз # E. coli и B. subtilis из первого упр. Оказалось, что белковые последовательности этих генов # из Uniprot, которые я использую, не содержат первые несколько аминокислот, закодированных в # соотв. генах, поэтому выравнялись только их "кодирующие" части. tranalign dpo3a_nucl.fasta ../../term2/pr9/DPO3A.fasta -table 11 -filter #!/bin/env bash echo 'TaxID,Ранг таксона,Научное название' epost -db taxonomy -id "$(cat /dev/stdin | tr '\n' ',')" | efilter -query 'Bacteria[TXDV]' | efetch -mode 'xml' | xtract -pattern 'Taxon' -element 'TaxId,Rank,ScientificName' | sort -k 1 -n | tr '\t' ','