В этом практикуме я исследовал протеом бактерии Pseudomonas aeroginosa. Сравнение этого протеома с контролем было проведено в практикуме по ссылке
Команда для поиска и проверки TaxID:
zgrep '^OX' 'UP000002438.swiss.gz'|cut -c 17-23|sort -u
По TaxID 208964 был проведен поиск сборок, соответсвующих таксону:
datasets summary genome taxon 208964 --as-json-lines|dataformat tsv genome
Был выбран AC GCF_000006765.1, так как он является референсным.
С помощью программы datasets и использованием нужного AC были получены необходимые файлы.
datasets download genome accession GCF_000006765.1 --include genome,gff3
Прежде чем искать рамки считывания, необходимо определить какой таблицой генетического кода пользоваться. Согласно записи про исследуемый таксон нужна таблица 11. Команда для поиска:
efetch -db taxonomy -id 208964 -format xml |less
Команда для поиска и трансляции открытых рамок между стоп-кодонами, с длинной последовательности не менее 50 аминоксилот:
getorf GCF_000006765.1_ASM676v1_genomic.fna frame.fasta -table 11 -minsize 150 -find 0
Проверка с помощью infoseq подтвердила, что последовательностей меньше 50 а.о нет:
infoseq -only -length frame.fasta |sort -u -n|less
С использованием транслированных рамок считывания была получена локальная белковая база для blastp:
makeblastdb -in frame.fasta -dbtype prot -out ORFs
Для дальнейшего исследования были скачены последовательности следующих белков: P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).
echo 'sw:P0AED9 sw:P0AEE8 sw:P23941'|tr ' ' '\n'|seqret '@stdin' query_MTases.fasta
Для поиска гомологов метилтрансфераз у Pseudomonas aeroginosa использовалась программа blastp:
blastp -query query_MTases.fasta -db ORFs -out res_blastp.txt -outfmt 7Выдача команды
С максимальным весом (33.5) оказалось 2 находки, я выбрал из них NC_002516.2_44409 (координаты в геноме:3411766 - 3414099), (e-value немного хуже, но процент идентичности выше). Это гомолог m4C-МТазы Bacillus amyloliquefaciens.
Далее были найдены CDS из таблицы локальных особенностей расположенные рядом с находкой:
grep '>NC_002516.2' genomic.gff |grep 'CDS'|cut -f 4,5,7,9 > CDS.tsv
echo -e '3411766\t3414099\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsvneighbors.tsv
Находка пересекается с CDS с координатами 3411763-3413940, которая кодирует метилтрансферазу 23s рРНК.
Поскольку найденный гомолог кодирует рРНК метилтрансферазу, то найти её по EC ДНК метилтрансфераз не выйдет, поэтому просто перепроверил наличие ДНК метилтрансфераз. Команда для поиска (на примере EC m4C-МТазы Bacillus amyloliquefaciens):
elink -db nuccore -target protein -id NC_002516.2|efilter -query '2.1.1.113 '|efetch -format fasta
В результате ничего не нашлось.