Практикум 9: Поиск ДНК-метилтрансфераз в геноме прокариоты

Глобальная задача: найти одну из ДНК-метилтрансфераз (m5C, m6A или m4C) в геноме бактерии/археи с использованием средств EMBOSS, EDirect, NCBI Datasets CLI и blast+.

Этап 0: Протеом бактерии

Использован протеом организма из практикума 8 семестра.

Команда для скачивания:

wget "https://www.uniprot.org/uniprot/?query=proteome:UP000001234&format=swiss" -O uniprot-proteome.swiss

Этап 1: Получение AC геномной сборки и TaxID организма

Идентификатор протеома UniProt: UP000032356
Сборка GenBank:GCA_000948415.1
Сборка RefSeq: GCF_000948415.1
TaxID: 1616823

поиск TaxID:

поиск происходил с помощью конвееров на языке bash в несколько этапов:

1) разархивирование:

gunzip -c UP000032356.swiss.gz > uniprot-proteome.swiss

2) поиск TaxID:

grep ^OX uniprot-proteome.swiss | sort | uniq -c

Этап 2: Поиск сборки

datasets summary genome taxon 1616823 --as-json-lines | dataformat tsv genome

Команда выдала стену текста, сложную для осмысления. Для упрощения добавила в конвеер

cut -f1,2,3 | sort -u"

Это показало, что сборка одна и у неё есть 2 версии:

GCF_000948415.1 - версия в RefSeq (референсная база)
GCA_000948415.1 - версия в GenBank

Для дальнейшей работы я выбрала версию RefSeq (так как она лучше аннотированна), AC сборки: GCF_000948415.1

Этап 3: Скачивание последовательности генома и таблицы локальных особенностей

Имея AC сборки, можно скачать нуклеотидную последовательность генома и таблицу локальных особенностей

datasets download genome accession GCF_000948415.1 --include gff3,genome

Скачанный архив был в формате .zip

unzip ncbi_dataset.zip

Этап 4: Поиск и трансляция открытых рамок считывания

Прежде, чем искать открытые рамки считывания, нужно определить, какой вариант генетического кода использует организм. Эту информацию можно получить из записи про таксон в базе NCBI Тaxonomy, скачав её с помощью efetch в формате xml.

efetch -db taxonomy -id 1616823 -format xml

Генетический код: 11

Поиск ORF с помощью getorf

getorf -sequence ncbi_dataset/data/GCF_000948415.1/*.fna -outseq orf_translations.fasta -find 0 -minsize 150 -table 11

Пояснение:

getorf - это программа из пакета EMBOSS для поиска и трансляции открытых рамок считывания в нуклеотидных последовательностях.
*.fna - GCF_000948415.1_ASM94841v1_genomic.fna - файл со скачанной нуклеотидной последовательностью генома
-outseq - файл для выходных
-find 0 - ищем ORF между стоп-кодонами
-minsize 150 - минимальная длина 150 нуклеотидов (50 аминокислот × 3)
-table 11 - номер кода

Проверка:

infoseq orf_translations.fasta

Создание BLAST-базы:

makeblastdb -in orf_translations.fasta -dbtype prot -out proteome

Пояснение:

makeblastdb - создает базу данных для быстрого поиска с помощью BLAST.
-dbtype prot - белковая база данных

Программа созадала несколько файлов:

proteome.phr - заголовки последовательностей (headers)
proteome.pin - индекс последовательностей (index)
proteome.psq - сами последовательности (sequences)
proteome.pdb - данные для PSI-BLAST (расширенная версия BLAST для поиска отдаленных гомологов)
proteome.pto - таксономическая информация
proteome.pot - файл смещений
proteome.pto - таксономическая информация

Этап 5: Получение последовательностей гомологичных метилтрансфераз

Все известные ДНК-метилтрансферазы прокариот, по всей видимости, содержат гомологичные каталитические домены. Однако они могут быть насколько далеки друг от друга, что сходство последовательностей стандартными средствами обнаружить не удается, но мы попробуем.

echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > list.txt

Надо скачать последовательности гомологичных метилтрансфераз (по сходству с которыми можно было бы осуществить поиск генов этих белков у данного организма), а именно:

Dcm, m5C-МТаза, E.coli (код доступа в Swiss-Prot P0AED9)
Dam, m6A-МТаза, E.coli (код доступа в Swiss-Prot P0AEE8)
m4C-МТаза, Bacillus amyloliquefaciens (код доступа в Swiss-Prot P23941)

Наиболее коротким способом, это можно сделать в 2 этапа: создать файл-список со USA, а далее скачать все последовательности из файла-списока

echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > list.txt

seqret @list.txt -outseq query.fasta

Этап 6: Поиск по сходству последовательностей

Наконец-то производим поиск гена метилтрансферазы у данного организма с помощью blastp, созданной ранее базы данных ORFs и скачанных в прошлом пункте последовательностей в качестве запроса:

Команда BLASTp:

blastp -query query.fasta -db proteome -out blast_results.txt -outfmt 7

blastp - gрограмма для поиска гомологичных белковых последовательностей (cравнивает аминокислотные последовательности)
-query - указывает файл-запрос
-db - указывает базу данных, в которой BLAST будет искать совпадения
-out - указывает выходной файл, куда BLAST запишет результаты поиска
-outfmt 7 - задает формат вывода результатов BLAST в виде таблицы с комментариями.

Результаты BLAST: blast_results.txt

Анализ лучшего хита:

Самая лучшая находка по весу, как можно видеть из выдачи, имеет идентификатор NZ_JYII01000006.1_3165

Идентификатор: NZ_JYII01000006.1_3165
Query: MTB1_BACAM (m4C-метилтрансфераза)
Координаты: 50..295
Score: 87.4
E-value: 4.19e-19
% identity: 29.304%

Далее, чтобы найти пересечения моей находки с генами, нужно выделить все кодирующие участки (CDS) из файла genomic.gff в отдельный файл CDS.tsv, сохранив их координаты и описания. Это позволит сравнить расположение моей находки с позициями известных генов.

grep "NZ_JYII01000006.1" genomic.gff | grep "CDS" | cut -f4,5,7,9 > CDS.tsv

Файл срздали, теперь ищем сходства.

 echo -e '50\t295\t+\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv

Файл с выводом: neighbors.tsv

Вывод: у ORF нет пересечения с CDS

Этап 6: Поиск по аннотациям кодирующих участков

Поскольку лучшая находка - m4C-метилтрансфераза, будем искать по EC-коду 2.1.1.113.

esearch -db nuccore -query "GCF_000948415.1" | elink -target protein | efilter -query "(2.1.1.37 OR 2.1.1.72 OR 2.1.1.113)" | efetch -format 'fasta'

В результате найдены две аннотированные ДНК-метилтрансферазы: DNA adenine methylase (WP_235285025.1, m6A-тип) и DNA cytosine methyltransferase (WP_044828408.1, m5C-тип). Однако m4C-метилтрансферазы в аннотации генома не обнаружено.

BLAST нашел ген метилтрансферазы, который отсутствует в официальной аннотации генома. Поиск по аннотациям обнаружил только два гена метилтрансфераз - m5C и m6A типа, а наш ген m4C типа в списке не значился. Это показывает, что BLAST является более мощным инструментом поиска, чем простой просмотр аннотаций. BLAST может находить гены по сходству последовательностей, даже если они не указаны в описании генома.