Практикум 9: EMBOSS, Entrez Direct, NCBI Datasets


Объектом, выбранным для данного практикума, стала бактерия Xanthomonas cucurbitae, с которой я работала в практикумах прошлых семестров.

Этап 1: получение AC геномной сборки

Был использован протеом данной бактерии UP000239561.swiss, скачанный в прошлом семестре.

Получение TaxID организма: grep '^OX' UP000239561.swiss | cut -b 1-22 | sort | uniq -c

Выдача была следующей: 3583 OX NCBI_TaxID=56453. Таким образом, TaxID организма - 56453.

Получение списка сборок: datasets summary genome taxon 56453 --as-json-lines | dataformat tsv genome | cut -f1 | sort | uniq | less

Из полученного списка была выбрана референсная сборка с идентификаторами RafSeq GCF_009883735.1 и GenBank GCA_009883735.1.

Этап 2: скачивание последовательности генома и таблицы локальных особенностей

Команда для загрузки сборки:datasets download genome accession GCF_000195955.2 --include gff3 --include genome

Распаковка архива:unzip ncbi_datasets.zip

Этап 3: поиск и трансляция открытых рамок считывания

Проверка таблицы генетического кода: efetch -db taxonomy -id '56453' -format 'xml' | less

В выдаче были найдены строки: < GeneticCode > < GCId > 11 < /GCId > . Значит, таблица генетического кода 11 (стандартная).

Нахождение ORF:getorf -sequence "ncbi_dataset/data/GCF_009883735.1/GCF_009883735.1_ASM988373v1_genomic.fna" -outseq orfs.fasta -minsize 150 -table 11 -find 0

Ссылкана файл orfs.fasta, в который записана выдача.

Проверка длины последовательностей (не меньше 50 а.к.): infoseq -sequence orfs.fasta -only -length | sort -n | uniq | less

Создание базы данных под названием ORFs:makeblastdb -in orfs.fasta -out ORFs -dbtype prot

Этап 4: получение последовательностей гомологичных метилтрансфераз

Целью следующего этапа работы стало нахождение у Xanthomonas cucurbitae метилтрансфераз, сходных с одной из следующих метилтрансфераз: P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).

Скачивание последовательностей белков:echo 'sw:P0AED9' 'sw:P0AEE8' 'sw:P23941'| tr ' ' '\n' > pr.txt | seqret @pr.txt query_MTases.fasta

Этап 5: поиск по сходству последовательностей

Выполнение blastp и сохранение результатов в blastp.out: blastp -task blastp -query query_MTases.fasta -db ORFs -out blastp.out -evalue 0.05 -outfmt 7

Ссылкана файл blastp.out, в который записана выдача.

Была выбрана находка с наибольшим весом. Это гомолог белка P0AED9 (m5C-метилтрансферазы E.coli) с идентификатором NZ_CP033326.1_27214, рамка имеет координаты 70-441.

Следующая команда была вызвана из папки: ncbi_dataset/data/GCF_009883735.1/genomic.gff

Запись всех CDS из таблицы лок. особ. в один файл: grep 'CDS' genomic.gff | cut -f 4,5,7,9 > allCDS.tsv

В файле orfs.fasta были найдены координаты требуемой рамки считывания (рамки NZ_CP033326.1_27214): [4077906 - 4076368] (REVERSE SENSE).

Отбор соседних записей в файл neighbours.tsv: echo -e '4076368\t4077906\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbours.tsv

Файл с выдачейсодержит лишь одну строку с координатами моей рамки считывания, соседних записей найдено не было.

Этап 6: поиск по аннотациям кодирующих участков

Так как рассматриваемые белки являются ферментами, поиск можно производить по их EC-кодам, что и было сделано. Поскольку гомолог с максимальным весом был найден для m5C, будем производить поиск по её EC-коду: elink -target protein -db nuccore -id NZ_CP033326.1_27214 | efilter -query '2.1.1.37' | efetch -format 'fasta'

Программа выдавала ошибку запроса и 'EMPTY RESULT' :(