Практикум 9. EMBOSS, Entrez Direct, NCBI Datasets

Получение AC геномной сборки

Перед тем, как начать работу с практикумом я скачала для своего организма (Streptomyces globosus) файл с протеомом при помощи команды:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000252004)' -O UP000252004.swiss.gz

Изначально этот прекрасный файл заархивирован, поэтому пришлось прибегнуть к распаковке следующим образом (у меня Linux):

gunzip UP000252004.swiss.gz

После этих действий началась работа непосредственно в рамках практикума.

Для начала необходимо найти геномную сборку, соответствующую моему протеому. Для начала, надо было найти TaxID моего организма; была выполнена следующая программа в терминале:

grep 'TaxID' UP000252004.swiss | cut -b5-22 | uniq -c

На выходе я получила: 6315 NCBI_TaxID=68209.

Далее по TaxID нужно было увидеть все возможные геномные сборки организма, что было получено при помощи следующей команды:

datasets summary genome taxon 68209 --as-json-lines | dataformat tsv genome | vd

Для работы я выбрала самую верхнюю сборку (потому что она самая лучшая) GCF_039529415.1.

**Рисунок 1.** Часть полученного результата команды datasets

Скачивание последовательности генома и таблицы локальных особенностей

Затем нужно было скачать геном и таблицу локальных особенностей для моего организма. Для этого я использовала следующую команду:

datasets download genome accession GCF_039529415.1 --include gff3 --include genome

После загрузки архив с файлами надо распаковать с помощью следующей программы:

unzip ncbi_dataset.zip

После распаковки в моей рабочей директории term3/pr9 появились следующие файлы: md5sum.txt README.md и директория ncbi_dataset, которая оказалась очень полезной для выполнения следующих заданий.

Поиск и трансляция открытых рамок считывания

Прежде, чем искать открытые рамки считывания, нужно было определить, какой вариант генетического кода использует моя бактерия (большая вероятность того, что таблица №11, но нужно было удостовериться). Для этого использовалась следующая программа:

efetch -db taxonomy -id 68209 -format xml > info.xml

Я залезла в полученный файл info.xml и подтвердила своё изначальное предположение.

**Рисунок 2.** Часть файла info.xml с указаникем на генетический код

Затем с помомщью следующей команды были найдены открытые рамки считывания (предварительно из директории ncbi_dataset/data/GCF_039529415.1 был скопирован файл GCF_039529415.1_ASM3952941v1_genomic.fna в рабочую директорию):

getorf -sequence GCF_039529415.1_ASM3952941v1_genomic.fna -outseq frames.fna -minsize 150 -table 11

Дальше была создана белковая база для blastp с названием ORFs:

makeblastdb -in frames.fna -dbtype 'prot' -out ORFs

По результату программы были получены следующие файлы: ORFs.pdb ORFs.phr ORFs.pin ORFs.pot ORFs.psq ORFs.ptf ORFs.pto.

С помощью программы infoseq из EMBOSS надо было проверить, что среди трансляций нет тех, которые короче 50 а.о.:

infoseq -sequence frames.fna -only -length | sort -u -n | less

Получение последовательностей гомологичных метилтрансфераз

Из Swiss-Prot были скачены 3 последовательности ДНК-метилтрансфераз (P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), P23941 (m4C-МТаза, Bacillus amyloliquefaciens)), которые в следующем запросе будут запросом в программе blastp. Это было выполнено программой, создающей файл query_MTases.fasta с тремя последовательностями:

echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941'|seqret -filter 'list::stdin' -outseq 'query_MTases.fasta'

Поиск по сходству последовательностей

Поиск по сходству последоватаельностей осуществлялся при помощи blastp, с использованием команды:

blastp -query 'query_MTases.fasta' -db 'ORFs' -outfmt 7 -out 'file'

Здесь представленна ссылка на файл с находками. Заглянув в него, я увидела, что С DCM_ECOLI было найдено 5 находок, а с DMA_ECOLI и MTB1_BACAM ничего не было найдено.

Самая лучшая находка была с весом - 59.3. Название рамки - NZ_BAAAMT010000041.1_285. У этой находки хороший показатель E-value: 2.35e-09, а её координаты в геноме: 37305-38603.

С использованием координат находки, можно отобрать CDS из таблицы локальных особенностей. Далее нужно было определить с какими CDS пересекается моя лучшая находка, для этого нужно создать файл CDS.tsv, содержащий только CDS из той же нуклеотидной последовательности, что и находка, а также необходимую информацию о них (все данные о CDS были взяты из файла genomic.gff из описанной ранее директории):

grep 'CDS' genomic.gff| grep '^NZ_BAAAMT010000041.1'|cut -f4,5,7,9 > CDS.tsv

После этого были выбраны близлежащие CDS с помощью следующей команды:

echo -e '37305\t38603\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

Здесь представлен полученный файл. Была найдена 1 CDS WP_344332434.1, кординаты которой пересекаются (37302-38588) с найденной ORF, но они полностью не накладываются.

Поиск по аннотациям кодирующих участков

В завершении, надо попробовать найти CDS, соответствующие моей находке, с помощью поиска по аннотации кодирующих участков в геноме. Для этого были выполнены следующие похожие друг на друга команды:

elink -target 'protein' -db 'nuccore' -id 'NZ_BAAAMT010000041.1' | efilter -query '2.1.1.37' | efetch -format 'fasta'
elink -target 'protein' -db 'nuccore' -id 'NZ_BAAAMT010000041.1' | efilter -query '2.1.1.72' | efetch -format 'fasta'
elink -target 'protein' -db 'nuccore' -id 'NZ_BAAAMT010000041.1' | efilter -query '2.1.1.113' | efetch -format 'fasta'

По результатам данных программ (по факту только первая дала результат) был получен белок WP_344332434.1, который есть и в файле neighbors.tsv.