ΠΡΠΎΡΠ΅ΠΎΠΌ Chromobacterium phragmitis
ΠΡΠ½ΠΊΡΡ 0 ΠΈ 1
ΠΠΎΠΌΠ°Π½Π΄Π° Π΄Π»Ρ ΡΠΊΠ°ΡΠΈΠ²Π°Π½ΠΈΡ ΠΏΡΠΎΡΠ΅ΠΎΠΌΠ°: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001424)' -O UP000001424.swiss.gz
- Proteome ID: UP000001424
- RefSeq ID: GCF_000007705.1
- GenBank ID: GCA_000007705.1
- CΡΡΠ°Π½ΠΈΡa ΡΠ±ΠΎΡΠΊΠΈ Π² Genome
ΠΡΠ½ΠΊΡ 2
- CΠΊΠ°ΡΠΈΠ²Π°Π½ΠΈΠ΅ Π³Π΅Π½ΠΎΠΌΠ½ΠΎΠΉ ΡΠ±ΠΎΡΠΊΠΈ ΠΎΡΠ³Π°Π½ΠΈΠ·ΠΌΠ°:
datasets download genome accession GCF_000007705.1 --include gff3,genome - Π Π°ΡΠΏΠ°ΠΊΠΎΠ²ΠΊΠ° ΡΠΊΠ°ΡΠ°Π½Π½ΠΎΠ³ΠΎ Π°ΡΡ
ΠΈΠ²Π°:
unzip ncbi_dataset.zip
ΠΡΠ½ΠΊΡ 3
- ΠΠΎΠΈΡΠΊ ΡΠΈΠΏΠ° Π³Π΅Π½Π΅ΡΠΈΡΠ΅ΡΠΊΠΎΠ³ΠΎ ΠΊΠΎΠ΄Π°:
esearch -db taxonomy -query "Chromobacterium violaceum" | efetch -format xml | xtract -pattern GeneticCode -element GCId, Π²ΡΠ²ΠΎΠ΄ - 11 - ΠΠ°Ρ
ΠΎΠΆΠ΄Π΅Π½ΠΈΠ΅ ΠΎΡΠΊΡΡΡΡΡ
ΡΠ°ΠΌΠΎΠΊ ΡΡΠΈΡΡΠ²Π°Π½ΠΈΡ:
getorf -sequence ~/term3/block2/pr9/ncbi_dataset/data/GCF_000007705.1/GCF_000007705.1_ASM770v1_genomic.fna -outseq translseq.faa -find 0 -minsize 150 -table 11 - CΠΎΠ·Π΄Π°Π½ΠΈΠ΅ Π±Π΅Π»ΠΊΠΎΠ²ΠΎΠΉ Π±Π°Π·Ρ Π΄Π»Ρ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΡ
ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ²:
makeblastdb -in translseq.faa -dbtype prot -out proteome - ΠΡΠΎΠ²Π΅ΡΠΊΠ° Π΄Π»ΠΈΠ½Ρ ΠΏΠΎΡΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠ΅ΠΉ:
infoseq translseq.faa -only -name -length -noheading | sort -n
ΠΠΎΠΌΠ°Π½Π΄Π° -find 0 Π½ΡΠΆΠ½Π° Π΄Π»Ρ ΠΏΠΎΠΈΡΠΊΠ° ΡΠ°ΠΌΠΊΠΈ ΠΌΠ΅ΠΆΠ΄Ρ ΡΡΠΎΠΏ-ΠΊΠΎΠ΄ΠΎΠ½Π°ΠΌΠΈ. ΠΊΠΎΠΌΠ°Π½Π΄Π° -minsize 150 Π½ΡΠΆΠ½Π° Π΄Π»Ρ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡΠ½ΠΎΠΉ Π΄Π»ΠΈΠ½Ρ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ(50).
ΠΡΠ½ΠΊΡ 4
- ΠΠΎΠΈΡΠΊ ΠΠΠ-ΠΌΠ΅ΡΠΈΠ»ΡΡΠ°Π½ΡΡΠ΅ΡΠ°Π·:
echo -e "sw:P0AED9\nsw:P0AEE8\nsw:P23941" | seqret @stdin -auto -outseq query.fasta
ΠΠΎΠΌΠ°Π½Π΄Π° @seqret ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ ΠΏΠΎΠ΄Π°ΡΡ ΡΠ°ΠΉΠ» ΡΠ΅ΡΠ΅Π· ΡΡΠ°Π½Π΄Π°ΡΡΠ½ΡΠΉ Π²Ρ ΠΎΠ΄. ΠΊΠΎΠΌΠ°Π½Π΄Π° \n Π² echo ΠΎΡΠ²Π΅ΡΠ°Π΅Ρ Π·Π° ΠΏΠ΅ΡΠ΅Π²ΠΎΠ΄ ΡΡΡΠΎΠΊ
ΠΡΠ½ΠΊΡ 5
- ΠΠΎΠΈΡΠΊ ΠΏΠΎ ΡΡ
ΠΎΠ΄ΡΡΠ²Ρ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠ΅ΠΉ:
blastp -query query.fasta -db proteome -outfmt 7 -out res.txt - E-value Π»ΡΡΡΠ΅ΠΉ Π½Π°Ρ ΠΎΠ΄ΠΊΠΈ(Π΄Π°Π»ΡΡΠ΅ Π±ΡΠ΄Ρ ΠΏΠΈΡΠ°ΡΡ ΠΏΡΠΎΡΡΠΎ Π½Π°Ρ ΠΎΠ΄ΠΊΠ°): 2.68e-16, ΡΠΊΠΎΡΠ΅Π΅ Π²ΡΠ΅Π³ΠΎ ΡΡΠΎ Π³ΠΎΠΌΠΎΠ»ΠΎΠ³ΠΈΡΠ½Π°Ρ Π½Π°Ρ ΠΎΠ΄ΠΊΠ°
- ΠΠ°Π·Π²Π°Π½ΠΈΠ΅ ΡΠ°ΠΌΠΊΠΈ Π½Π°Ρ ΠΎΠ΄ΠΊΠΈ: NC_005085.1_35143
- ΠΠΎΠΎΡΠ΄ΠΈΠ½Π°ΡΡ ΡΠ°ΠΌΠΊΠΈ Π² Π³Π΅Π½ΠΎΠΌΠ΅: 2301496 - 2300708
- ΠΠ΅Ρ Π½Π°Ρ ΠΎΠ΄ΠΊΠΈ(bit score):75.9
- ΠΠΎΠΌΠΎΠ»ΠΎΠ³ ΠΊΠ°ΠΊΠΎΠΉ ΠΈΠ· ΠΠ’Π°Π· Ρ Π°ΡΠ°ΠΊΡΠ΅ΡΠ΅Π½ Π΄Π»Ρ Π½Π°Ρ ΠΎΠ΄ΠΊΠΈ: P0AEE8(Dam, m6A-ΠΠ’Π°Π·Π°, E.coli)
ΠΡΠ±ΠΎΡ Π½ΡΠΆΠ½ΡΡ
ΡΡΡΠΎΡΠ΅ΠΊ, Π΄Π»Ρ ΡΠΎΠ³ΠΎ, ΡΡΠΎΠ±Ρ ΡΠ·Π½Π°ΡΡ ΠΊΠ°ΠΊΠΈΠ΅ Π½Π°Ρ
ΠΎΠ΄ΠΊΠΈ ΡΠ°ΡΠΏΠΎΠ»Π°Π³Π°ΡΡΡΡ ΡΡΠ΄ΠΎΠΌ Ρ Π½Π°ΡΠ΅ΠΉ, ΠΈΡΠΎΠ³ Π±ΡΠ΄Π΅Ρ Π² ΡΠ°ΠΉΠ»Π΅Ρ CDS.tsv. grep '^NC_005085.1' ~/term3/block2/pr9/ncbi_dataset/data/GCF_000007705.1/genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv
ΠΡΠ΅ΠΌ ΠΊΠ°ΠΊΠΈΠ΅ Π½Π°Ρ
ΠΎΠ΄ΠΊΠΈ ΡΠΎΡΠ΅Π΄Π½ΠΈΠ΅ Ρ Π½Π°ΡΠ΅ΠΉ NZ_CP029495.1. echo -e '2301496\t2300708\t+\tNC_005085.1' | cat - CDS.tsv | sort -n -k1,2 | grep -C 3 'NC_005085.1' > neighbors.tsv
ΠΡΠ½ΠΊΡ 6
- ΠΠΎΠΈΡΠΊ ΠΏΠΎ Π°Π½Π½ΠΎΡΠ°ΡΠΈΠΈ ΠΊΠΎΠ΄ΠΈΡΡΡΡΠΈΡ
ΡΡΠ°ΡΡΠΊΠΎΠ² Π² Π³Π΅Π½ΠΎΠΌΠ΅:
elink -db nuccore -id NC_005085.1 -target protein | efilter -query "2.1.1.72[ECNO]" | efetch -format acc - ΠΠ°ΠΉΠ΄Π΅Π½Π½Π°Ρ Π‘DS:
WP_011135659.1
ΠΠΎΠΌΠ°Π½Π΄Π° elink ΡΠ²ΡΠ·ΡΠ²Π°Π΅Ρ Π½ΡΠΊΠ»Π΅ΠΎΡΠΈΠ΄Π½ΡΡ Π·Π°ΠΏΠΈΡΡ(Π½Π°Ρ ΠΎΠ΄ΠΊΡ) Ρ Π±Π΅Π»ΠΊΠΎΠ²ΡΠΌΠΈ Π·Π°ΠΏΠΈΡΡΠΌΠΈ. ΠΊΠΎΠΌΠ°Π½Π΄Π° efilter ΡΠΈΠ»ΡΡΡΡΠ΅Ρ ΠΏΠΎ EC-ΠΊΠΎΠ΄Π°ΠΌ ΠΌΠ΅ΡΠΈΠ»ΡΡΠ°Π½ΡΡΠ΅ΡΠ°Π·, Ρ Π½Π°Ρ 2.1.1.72 (m6A). ΠΊΠΎΠΌΠ°Π½Π΄Π° efetch ΠΏΠΎΠ»ΡΡΠ°Π΅Ρ accession numbers Π½Π°ΠΉΠ΄Π΅Π½Π½ΡΡ Π±Π΅Π»ΠΊΠΎΠ²