Поиск гомологичных метилтрансфераз методами EMBOSS и EDirect

Информация об организме и геномной сборке

Для дальнейшей работы был взят геном, на основе которого был получен референсный протеом бактерии Octadecabacter ascidiaceicola (Proteome ID: UP000203464). Стоит отметить, что уровень данной сборки генома - Contig, и сборка содержит 11 отдельных контигов.

Код доступа данной сборки из GenBank: GCA_900185015.1

Код доступа данной сборки из RefSeq: GCF_900185015.1

Ссылка на страницу в NCBI Datasets Genome

Скачивание последовательности генома и таблицы локальных особенностей

Последовательность и таблица локальных особенностей были загружены при помощи следующей команды:

datasets download genome accession GCF_900185015.1 --include genome,gff3

И разархивированы при помощи команды:

unzip ncbi_dataset.zip

Получение последовательностей гомологичных метилтрансфераз

Поскольку задача заключается в поиске рамок считывания, потенциально кодирующих ДНК-метилтрансферазы, в геноме бактерии, были загружены аминокислотные последовательности трех ДНК-метилтрансфераз различных групп: P0AED9 (Dcm, m5C-метилтрансфераза, Escherichia coli), P0AEE8 (Dam, m6A-метилтрансфераза, Escherichia coli) и P23941 (m4C-метилтрансфераза системы BamHI, Bacillus amyloliquefaciens):

echo 'sw:P0AED9 sw:P0AEE8 sw:P23941' | tr ' ' '\n' | seqret -filter @stdin -outseq query.fasta

Поиск и трансляция открытых рамок считывания

Для определения генетического кода, используемого Octadecabacter ascidiaceicola (Taxonomy ID: 1655543), была загружена запись из NCBI Taxonomy:

efetch -db taxonomy -id 1655543 -format 'xml' > organism_data.xml

Рассматриваемая бактерия использует генетический код, представленный в таблице №11, как и многие другие бактерии и археи.

Далее были получены трансляции открытых рамок считывания между стоп-кодонами длиной не менее 50 аминокислотных остатков:

getorf -sequence O_ascidiaceicola_genomic.fna -table 11 -find 0 -minsize 150 -outseq ORFs.fa

Для проверки корректности длин отобранных ORF использовался код:

infoseq ORFs.fa -filter -only -length | sort -n | head -n 2

На основе полученных ORF была создана база данных для локального blastp:

makeblastdb -in ORFs.fa -dbtype 'prot' -out proteome

Поиск по сходству последовательностей

Наконец, посредством локального blastp, был проведен поиск транслированных ORF, сходных с последовательностями загруженных ДНК-метилтрансфераз:

blastp -query query.fasta -db proteome -outfmt 7 -out blast_res.table

Табличная выдача локального blastp

Среди полученных результатов имеются два с достаточно низким e-value и большим весом, информация о них приведена в Таблице 1.

Таблица 1. Характеристики ORF, потенциально соотвествующих ДНК-метилтрансферазам.
Название NZ_FXYD01000004.1_903 NZ_FXYD01000002.1_3791
Координаты 190265 – 191398 598840 - 597530
Вес (в битах) 94.0 79.7
Тип m4C m5C

Далее для поиска соседних аннотированных CDS из таблицы локальных особенностей были выбраны столбцы, в которых указаны контиг (1), координаты (4 и 5), цепь (7) и дополнительная информация (9), а также строки, содержащие информацию о CDS (CDS в столбце 3):

cut genomic.gff -f1,3,4,5,7,9 | tr '\t' '$' | grep '\$CDS\$' | tr '$' '\t' | cut -f1,3-6 > CDS.tsv

Сначала была рассмотрена находка NZ_FXYD01000004.1_903.

Был осуществлен поиск соседних CDS из таблицы локальных особенностей, для этого использовался код:

echo -e 'NZ_FXYD01000004.1\t190265\t191398\t+\tTarget_ORF' | cat - CDS.tsv | sort -n -k 2 | grep -C 10 'Target_ORF' > neighbors.tsv

Таблица соседних CDS

Среди соседних CDS имеется WP_093996974.1 с координатами 190292 - 191401, то есть она отличается от найденной при помощи blastp ORF только учтенным стоп-кодоном на конце последовательности, а также отсуствием нескольких триплетов в начале последовательности, что объясняется тем, что при поиске ORF проводился поиск рамок считывания между двумя стоп-кодонами. Помимо этого в описании данной CDS указано "site-specific DNA-methyltransferase".

Аналогичные действия были совершены для находки NZ_FXYD01000002.1_3791:

echo -e 'NZ_FXYD01000002.1\t597530\t598840\t-\tTarget_ORF' | cat - CDS.tsv | sort -n -k 2 | grep -C 10 'Target_ORF' > neighbors_m5C.tsv

Таблица соседних CDS для находки NZ_FXYD01000002.1_3791

В этом случае была найдена CDS WP_093996089.1 с координатами 598792 - 597527 (координаты инвертированы, так как CDS располагается на комплементарной цепи). Отличия координат CDS от ORF объясняются так же, как и для предыдущей находки. В описании данной CDS указано "DNA (cytosine-5-)-methyltransferase activity", а также "S-adenosyl-L-methionine binding", что имеет смысл, поскольку S-аденозилметионин является основным донором метильной группы для ДНК-метилтрансфераз.

Поиск по аннотациям кодирующих участков

Для найденной потенциальной m4C-метилтрансферазы была осуществлена попытка найти ее в геномной последовательности Octadecabacter ascidiaceicola по наличию кода EC 2.1.1.113 в аннотации:

elink -db nuccore -id 'NZ_FXYD01000004' -target 'protein' | efilter -query '2.1.1.113' | efetch -format 'acc'

По данному запросу не было найдено ни одного результата.

Аналогичная попытка была сделана для потенциальной m5C-метилтрансферазы:

elink -db nuccore -id 'NZ_FXYD01000002' -target 'protein' | efilter -query '2.1.1.37[ECNO]' | efetch -format 'acc'

Был найден 1 результат, который как раз соотвествует найденной CDS потенциальной m5C-метилтрансферазы: WP_093996089.1.