Практикум 9: EMBOSS, Entrez Direct, NCBI Datasets


Объектом, выбранным для данного практикума, стала бактерия Xanthomonas cucurbitae, с которой я работала в практикумах прошлых семестров.

Этап 1: получение AC геномной сборки

Был использован протеом данной бактерии UP000239561.swiss, скачанный в прошлом семестре.

Получение TaxID организма: grep '^OX' UP000239561.swiss | cut -b 1-22 | sort | uniq -c

Выдача была следующей: 3583 OX NCBI_TaxID=56453. Таким образом, TaxID организма - 56453.

Получение списка сборок: datasets summary genome taxon 56453 --as-json-lines | dataformat tsv genome | cut -f1 | sort | uniq | less

Из полученного списка сборок мне необходимо было выбрать ту, к которой относится мой протеом. Для этого я открыла файл protein_info.txt из практикума 7 прошлого семестра, и в строке INSDC нашла AC нуклеотидных записей: MDED01000002, CP033326. Для поиска сборок, соответствующих данным AC, я применила команду: esearch -db nuccore -query 'MDED01000002' | elink -target assembly | esummary | xtract -pattern DocumentSummary -element Id

На выход я получила Id данной сборки - 1574041, и по поиску в NCBI Assembly узнала, что это сборка с идентификаторами RefSeq GCF_002939885.1 и GenBank GCA_002939885.1.

Для достоверности я воспользовалась страничкой протеома на Uniprot, где как соответствующая протеому была указана только сборка GCF_002939885.1 - поэтому буду работать с ней.

Этап 2: скачивание последовательности генома и таблицы локальных особенностей

Команда для загрузки сборки:datasets download genome accession GCF_002939885.1 --include gff3 --include genome

Распаковка архива:unzip ncbi_dataset.zip

Этап 3: поиск и трансляция открытых рамок считывания

Проверка таблицы генетического кода: efetch -db taxonomy -id '56453' -format 'xml' | less

В выдаче были найдены строки: < GeneticCode > < GCId > 11 < /GCId > . Значит, таблица генетического кода 11 (прокариотическая и пластидная).

Нахождение ORF: getorf -sequence "ncbi_dataset/data/GCF_002939885.1/GCF_002939885.1_ASM293988v1_genomic.fna" -outseq orf.fasta -minsize 150 -table 11 -find 0

Ссылка на файл orf.fasta, в который записана выдача.

Проверка длины последовательностей (последовательности должны быть не меньше 50 а.к., это подтверждается выводом команды): infoseq -sequence orf.fasta -only -length | sort -n | uniq | less

Создание базы данных под названием ORFs: makeblastdb -in orf.fasta -out ORF -dbtype prot

Этап 4: получение последовательностей гомологичных метилтрансфераз

Целью следующего этапа работы стало нахождение у Xanthomonas cucurbitae метилтрансфераз, сходных с одной из следующих метилтрансфераз: P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).

Скачивание последовательностей белков: echo 'sw:P0AED9' 'sw:P0AEE8' 'sw:P23941'| tr ' ' '\n' | seqret '@stdin' 'query_MTases.fasta'

Этап 5: поиск по сходству последовательностей

Выполнение blastp и сохранение результатов в blastp_orf.out: blastp -task blastp -query query_MTases.fasta -db ORF -out blastp_orf.out -evalue 0.05 -outfmt 7

Ссылка на файл blastp_orf.out, в который записана выдача.

Была выбрана находка с наибольшим весом. Это гомолог белка P0AED9 (m5C-метилтрансферазы E.coli) с идентификатором NZ_MDED01000009.1_12, её вес 84,0. В файле orfs.fasta были найдены координаты требуемой рамки считывания (рамки NZ_MDED01000009.1_12): [858 - 2396].

Далее стояла задача по координатам этой находки определить, какие CDS из таблицы локальных особенностей (genomic.gff) располагаются рядом с ней.

Следующие две команды были вызваны из папки ~/term3/pr9/ncbi_dataset/data/GCF_002939885.1 , в которой лежит файл genomic.gff.

В файл CDS.tsv были отобраны столбцы 4,5,7,9 из строк, соответствующих CDS в той же геномной последовательности, что и моя находка: grep 'NZ_MDED01000009.1' genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv. Таким образом, в полученном файле CDS.tsv четыре столбца, 1ый и 2ой соответствуют координатам рамки считывания, 3ий - цепи (+ или -), 4ый - дополнительной информации.

В полученный файл CDS.tsv я добавила строку с координатами моей находки, записав в 1 и 2 столбец её координаты, в третий столбец + (так как в координатах не отмечено, что находка на - цепи), в 4 столбец - MY-ORF.

Отбор соседних записей в файл neighbors.tsv: echo -e '858\t2396\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

Файл neighbors.tsv содержит координаты шести рамок считывания, две из которых - моя находка (MY-ORF), а четыре других - её соседи. Из этих 4 соседей пересекаюются с моей находкой две рамки, имеющие координаты [537 - 941] и [1014 - 2399]. Первая из них кодирует белок WP_104602906.1, аннотированный как ДНК-mismatch-эндонуклеаза Vsr, а вторая кодирует белок WP_223214371.1, аннотированный как ДНК-цитозин-метилтрансфераза.

Этап 6: поиск по аннотациям кодирующих участков

Так как рассматриваемые белки являются ферментами, поиск можно производить по их EC-кодам, что и было сделано. Поскольку гомолог с максимальным весом был найден для m5C, будем производить поиск по её EC-коду: elink -target protein -db nuccore -id NZ_MDED01000009.1| efilter -query '2.1.1.37' | efetch -format 'fasta' 1> task6.txt 2> task6.log

Выходной файл task6.txt содержит один белок WP_223214371.1, аннотированный как ДНК-цитозин-метилтрансфераза и ранее обнаруженный в задании 5. Таким образом, мы подтвердили, что данный белок является гомологом указанной m5C-метилтрансферазы.