Объектом, выбранным для данного практикума, стала бактерия Xanthomonas cucurbitae, с которой я работала в практикумах прошлых семестров.
Был использован протеом данной бактерии UP000239561.swiss, скачанный в прошлом семестре.
Получение TaxID организма: grep '^OX' UP000239561.swiss | cut -b 1-22 | sort | uniq -c
Выдача была следующей: 3583 OX NCBI_TaxID=56453. Таким образом, TaxID организма - 56453.
Получение списка сборок: datasets summary genome taxon 56453 --as-json-lines | dataformat tsv genome | cut -f1 | sort | uniq | less
Из полученного списка сборок мне необходимо было выбрать ту, к которой относится мой протеом. Для этого я открыла файл protein_info.txt из практикума 7 прошлого семестра, и в строке INSDC нашла AC нуклеотидных записей: MDED01000002, CP033326. Для поиска сборок, соответствующих данным AC, я применила команду: esearch -db nuccore -query 'MDED01000002' | elink -target assembly | esummary | xtract -pattern DocumentSummary -element Id
На выход я получила Id данной сборки - 1574041, и по поиску в NCBI Assembly узнала, что это сборка с идентификаторами RefSeq GCF_002939885.1 и GenBank GCA_002939885.1.
Для достоверности я воспользовалась страничкой протеома на Uniprot, где как соответствующая протеому была указана только сборка GCF_002939885.1 - поэтому буду работать с ней.
Команда для загрузки сборки:datasets download genome accession GCF_002939885.1 --include gff3 --include genome
Распаковка архива:unzip ncbi_dataset.zip
Проверка таблицы генетического кода:
efetch -db taxonomy -id '56453' -format 'xml' | less
В выдаче были найдены строки: < GeneticCode > < GCId > 11 < /GCId > . Значит, таблица генетического кода 11 (прокариотическая и пластидная).
Нахождение ORF: getorf -sequence "ncbi_dataset/data/GCF_002939885.1/GCF_002939885.1_ASM293988v1_genomic.fna" -outseq orf.fasta -minsize 150 -table 11 -find 0
Ссылка на файл orf.fasta, в который записана выдача.
Проверка длины последовательностей (последовательности должны быть не меньше 50 а.к., это подтверждается выводом команды):
infoseq -sequence orf.fasta -only -length | sort -n | uniq | less
Создание базы данных под названием ORFs: makeblastdb -in orf.fasta -out ORF -dbtype prot
Целью следующего этапа работы стало нахождение у Xanthomonas cucurbitae метилтрансфераз, сходных с одной из следующих метилтрансфераз: P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).
Скачивание последовательностей белков: echo 'sw:P0AED9' 'sw:P0AEE8' 'sw:P23941'| tr ' ' '\n' | seqret '@stdin' 'query_MTases.fasta'
Выполнение blastp и сохранение результатов в blastp_orf.out:
blastp -task blastp -query query_MTases.fasta -db ORF -out blastp_orf.out -evalue 0.05 -outfmt 7
Ссылка на файл blastp_orf.out, в который записана выдача.
Была выбрана находка с наибольшим весом. Это гомолог белка P0AED9 (m5C-метилтрансферазы E.coli) с идентификатором NZ_MDED01000009.1_12, её вес 84,0. В файле orfs.fasta были найдены координаты требуемой рамки считывания (рамки NZ_MDED01000009.1_12): [858 - 2396].
Далее стояла задача по координатам этой находки определить, какие CDS из таблицы локальных особенностей (genomic.gff) располагаются рядом с ней.
Следующие две команды были вызваны из папки ~/term3/pr9/ncbi_dataset/data/GCF_002939885.1 , в которой лежит файл genomic.gff.
В файл CDS.tsv были отобраны столбцы 4,5,7,9 из строк, соответствующих CDS в той же геномной последовательности, что и моя находка: grep 'NZ_MDED01000009.1' genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv
. Таким образом, в полученном файле CDS.tsv четыре столбца, 1ый и 2ой соответствуют координатам рамки считывания, 3ий - цепи (+ или -), 4ый - дополнительной информации.
В полученный файл CDS.tsv я добавила строку с координатами моей находки, записав в 1 и 2 столбец её координаты, в третий столбец + (так как в координатах не отмечено, что находка на - цепи), в 4 столбец - MY-ORF.
Отбор соседних записей в файл neighbors.tsv: echo -e '858\t2396\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv
Файл neighbors.tsv содержит координаты шести рамок считывания, две из которых - моя находка (MY-ORF), а четыре других - её соседи. Из этих 4 соседей пересекаюются с моей находкой две рамки, имеющие координаты [537 - 941] и [1014 - 2399]. Первая из них кодирует белок WP_104602906.1, аннотированный как ДНК-mismatch-эндонуклеаза Vsr, а вторая кодирует белок WP_223214371.1, аннотированный как ДНК-цитозин-метилтрансфераза.
Так как рассматриваемые белки являются ферментами, поиск можно производить по их EC-кодам, что и было сделано. Поскольку гомолог с максимальным весом был найден для m5C, будем производить поиск по её EC-коду: elink -target protein -db nuccore -id NZ_MDED01000009.1| efilter -query '2.1.1.37' | efetch -format 'fasta' 1> task6.txt 2> task6.log
Выходной файл task6.txt содержит один белок WP_223214371.1, аннотированный как ДНК-цитозин-метилтрансфераза и ранее обнаруженный в задании 5. Таким образом, мы подтвердили, что данный белок является гомологом указанной m5C-метилтрансферазы.