Объектом, выбранным для данного практикума, стала бактерия Xanthomonas cucurbitae, с которой я работала в практикумах прошлых семестров.
Был использован протеом данной бактерии UP000239561.swiss, скачанный в прошлом семестре.
Получение TaxID организма: grep '^OX' UP000239561.swiss | cut -b 1-22 | sort | uniq -c
Выдача была следующей: 3583 OX NCBI_TaxID=56453. Таким образом, TaxID организма - 56453.
Получение списка сборок: datasets summary genome taxon 56453 --as-json-lines | dataformat tsv genome | cut -f1 | sort | uniq | less
Из полученного списка была выбрана референсная сборка с идентификаторами RafSeq GCF_009883735.1 и GenBank GCA_009883735.1.
Команда для загрузки сборки:datasets download genome accession GCF_000195955.2 --include gff3 --include genome
Распаковка архива:unzip ncbi_datasets.zip
Проверка таблицы генетического кода:
efetch -db taxonomy -id '56453' -format 'xml' | less
В выдаче были найдены строки: < GeneticCode > < GCId > 11 < /GCId > . Значит, таблица генетического кода 11 (стандартная).
Нахождение ORF:getorf -sequence "ncbi_dataset/data/GCF_009883735.1/GCF_009883735.1_ASM988373v1_genomic.fna" -outseq orfs.fasta -minsize 150 -table 11 -find 0
Ссылкана файл orfs.fasta, в который записана выдача.
Проверка длины последовательностей (не меньше 50 а.к.):
infoseq -sequence orfs.fasta -only -length | sort -n | uniq | less
Создание базы данных под названием ORFs:makeblastdb -in orfs.fasta -out ORFs -dbtype prot
Целью следующего этапа работы стало нахождение у Xanthomonas cucurbitae метилтрансфераз, сходных с одной из следующих метилтрансфераз: P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).
Скачивание последовательностей белков:echo 'sw:P0AED9' 'sw:P0AEE8' 'sw:P23941'| tr ' ' '\n' > pr.txt | seqret @pr.txt query_MTases.fasta
Выполнение blastp и сохранение результатов в blastp.out:
blastp -task blastp -query query_MTases.fasta -db ORFs -out blastp.out -evalue 0.05 -outfmt 7
Ссылкана файл blastp.out, в который записана выдача.
Была выбрана находка с наибольшим весом. Это гомолог белка P0AED9 (m5C-метилтрансферазы E.coli) с идентификатором NZ_CP033326.1_27214, рамка имеет координаты 70-441.
Следующая команда была вызвана из папки: ncbi_dataset/data/GCF_009883735.1/genomic.gff
Запись всех CDS из таблицы лок. особ. в один файл: grep 'CDS' genomic.gff | cut -f 4,5,7,9 > allCDS.tsv
В файле orfs.fasta были найдены координаты требуемой рамки считывания (рамки NZ_CP033326.1_27214): [4077906 - 4076368] (REVERSE SENSE).
Отбор соседних записей в файл neighbours.tsv: echo -e '4076368\t4077906\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbours.tsv
Файл с выдачейсодержит лишь одну строку с координатами моей рамки считывания, соседних записей найдено не было.
Так как рассматриваемые белки являются ферментами, поиск можно производить по их EC-кодам, что и было сделано. Поскольку гомолог с максимальным весом был найден для m5C, будем производить поиск по её EC-коду: elink -target protein -db nuccore -id NZ_CP033326.1_27214 | efilter -query '2.1.1.37' | efetch -format 'fasta'
Программа выдавала ошибку запроса и 'EMPTY RESULT' :(