Практикум 9

Поиск ДНК-метилтрансфераз с помощью средств EMBOSS, EDirect, NCBI Datasets CLI и blast+

В первом семестре референсным протеомом в задании был выбран протеом Mucilaginibacter polytrichastri. Далее он будет использоваться для поиска ДНК-метилтрансферазы в геноме.

Таблица 1. Идентификаторы генома
Тип идентификатора Значение
UniProt ID UP000186720
GenBank Accession GCA_001911425.1
RefSeq Accession GCF_001911425.1

Ссылка на страницу сборки в Genome

Далее с помощью следующей комнады были скачаны последовательность и feature table геномной сборки.

datasets download genome accession GCF_001911425.1 -–include genome,gff3

И после разорхивирована с помощью команды:

unzip ncbi_dataset.zip

следующей задачей было определить, какой вариант генетического кода использует организм. Для этого использовалась следующая команда:

esearch -db 'taxonomy' -query 'Mucilaginibacter polytrichastri[orgn]' | efetch -format 'xml' > orftab.txt

Среди полученной выдачи была нужная строка с информацией о том, что мой орагнизм испоользует таблицу №11.

< GeneticCode>

< GCId>11< /GCId>

Для нахождения открытых рамок считывания использовалась следующая команда:

getorf -sequence ./ncbi_dataset/data/GCF_001911425.1/GCF_001911425.1_ASM191142v1_genomic.fna -outseq prseq.fasta -minsize 150 -find 0 -table 11

Кроме того, было необходимо проверить, точно ли с помощью предедущей команды получились трансляции не короче 50 аминокислот и для этого использовался конвейр с infoseq:

infoseq prseq.fasta -only -length | sort -n | less

И создать базу данных для локального blstp на основе полученных ORF.

makeblastdb -in prseq.fasta -dbtype prot -out proteome

Скачивание последовательностей трех ДНК-метилтрансфераз из Swiss-Prot производилось с помощью следующего конвейра:

echo 'sw:P0AED9 sw:P0AEE8 sw:P23941' | tr " " "\n" | seqret -filter @stdin -outseq query.fasta

Далее с поомщью локального blstp был произведен поиск гомологичных последовательностей.

blastp -db proteome -query query.fasta -outfmt 7 -out blastp5.out

Выдача локальгого blastp

Создание файла с ORF со столбцами с необходимой информацией (столбцы с координатами, цепью и дополнительной информацией) проводилось с помощью следующей команды:

grep 'CDS' ncbi_dataset/data/GCF_001911425.1/genomic.gff | cut -f 4,5,7,9 > CDS.tsv

Лучшей находкой по весу (35.8) - NZ_MPPL01000001.1_28584. Координаты находки в геноме - [1664763 - 1661536]. Судя по выдаче blstp, находка должна была быть гомологичной m4C-Мтазе (P23941). Но при этом находка имеет сомнительный e-value - 0.017, который при этом является одним из самых низких среди всех находок blastp по всем трем ДНК-трансферазам. При поиске пересечений с ранее вырезанными CDS с помощью команды:

echo -e '1661536\t1664763\t-\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 5 'FOUND-ORF' > neighbors.tsv

Соседние CDS

Выдача показала один CDS с координатами достаточно близкими к рамке считывания [1661533 1664724], но при этом в описании белка указано, что это TonB-зависимый рецептор наружной мембраны семейства SusC/RagA (никак не гомологичным ДНК-трансферазам). Остальные бликзие CDS не пересекются с ORF.

Аналогичные махинации были произведены с еще одной находкой NZ_MPPL01000001.1_13122 с e-value - 0.016 и весом равным 32.3. Её координаты - [4471679 - 4471828]. Результат - найдена CDS с координатами [4471770-4472468] и описанием белка - белок с N-концевым аминопептидазным доменом типа ApeA, что тоже негомологично предполагаемой m5C-МТазе.

Находка среди гомологов m6A-МТазы так же, как и предыдущие, не дала нужного результата. С наибольшим весом (28.1) и очень большим e-value равным 2.7 - NZ_MPPL01000001.1_26335. Координаты найденой ORF - [2501750-2504941], CDS - [2501747 2504926], а описание продукта - cубъединица пермеазы RND-транспортера систем эффлюкса, так же не подходит под требования задачи.

Поиск по аннотациям кодирующих участков

Несмотря на то, что в бактерии не были найдены ДНК-метилтрансферазы, нужно подтвердить это и поиском по аннотации кодирующих участков в геноме. Поиск проводился по EC-коду, который соответствует находке NZ_MPPL01000001.1_13122.

elink -db nuccore -target protein -id 'NZ_MPPL01000001.1' | efilter -query '(2.1.1.37[ECNO] OR 2.1.1.72[ECNO] OR 2.1.1.113[ECNO])' | efetch -format 'acc' | less

Как и ожидалось, ничего не было найдено. Следовательно, в рассматриваемом референсном геноме Mucilaginibacter polytrichastri нет ДНК-метилтрансфераз, либо, возможно, они далеки от последовательностей примерной выборки.