Поиск ДНК-метилтрасфераз

0. Протеом

В данном практикуме использовался уже скачанный протеом археи Natrinema halophilum.

1. Получение AC геномной сборки

Для начала из файла с протеомом UP000509241.swiss был получен идентификатор TaxID с помощью команды:

grep '^OX' UP000509241.swiss| cut -c -24 | sort | uniq -c

Далее с помощью опредленного TaxID 1699371 была получена информация о доступных сборках. Использовалась команда:

datasets summary genome taxon '1699371' > sum.json

В полученном файле json оказалась информация о двух достпуных сборках, одна из которых версия RefSeq. Она и была использована в дальнейших упражнениях.

2. Cкачивание последовательности генома и таблицы локальных особенностей

В прошлом задании опредлен AC сборки GCF_013402815.2. Для скачивания генома в формате fasta и табицы локальных особенностей была использована команда:

datasets download genome accession GCF_013402815.2 --include genome,gff3

3. Поиск и трансляция открытых рамок считывания

Прежде чем искать открытые рамки считывания необходимо было получить информацию о таблице генетического кода, исползуемой данным организмом. Для этой цели была использована команда:

efetch -db 'taxonomy' -id '1699371' -format 'xml'

Из полученной информации формата xml было установлено, что организм использует таблицу 11, которая называется Bacterial, Archaeal and Plant Plastid.

Далее в геноме были найдены открытые рамки считывания между стоп-кодонами с минимальным размером после трансляции 50 аминокислот. Полученные прочтения помещены в файл для дальнейшей работы. Для этого использовалась команда:

getorf -filter 'GCF_013402815.2_ASM1340281v2_genomic.fna' -table 11 -minsize 150 -find 0 'db.fasta'

После этого на основании полученного файла db.fasta была создана белковая база для blastp - ORFs:

makeblastdb -dbtype prot -in db.fasta -out ORFs

Кроме того полученные трансляции были проверены на точное ограничение по длине прочтения. Для этого использовалась команда, в результате работы которой было установлена что длинна действительно не менее 50 аминокислот.

infoseq -filter db.fasta -only -Length | tail -n +2 | sort -n

По моей логике данная команда работает так: получаем список длин последовательностей из файла для создания базы данных, убираем заголовок "Lenght", сортируем и получаем список длин. Таким образом, так как первая длина в отсортированном по возрастанию списке - 50, можно сделать вывод, что отобраны верные открытые рамки считывания.

4. Получение последовательностей гомологичных метилтрансфераз

Для дальнейших упражнений понадобятся последовтельности метилтрасфераз из других микроорганизмов. Для того чтобы получить нужные, была использована команда использующая USA с идентификаторами:

echo "sw:P0AED9" "sw:P0AEE8" "sw:P23941" | tr ' ' '\n'| seqret -filter -auto 'list:stdin' 'query_MTases.fasta'

Таким образом был получен файл query_MTases в формате fasta с тремя последовательностями ферментов.

5. Поиск по сходству последовательностей

Полученные последовательности метилтрасфераз были использованы в роли запроса для blatp по созданной ранее базе данных ORFs:

blastp -query query_MTases.fasta -db ORFs -outfmt 7 > out.txt

С табличной выдачей работы blast можно ознакомиться в файле. Наиболее весомая находка в геноме обнаружена при поиске N(4)- cytosine-specific methyltransferase BamHI. Соответсвующий идентификатор в индексированных рамках считывания - NZ_CP058601.1_25146. E-value - 3.83e-120, процент идентичности последовтельностей 44.5, что логично так как открыте рамки считывания для археи.

Наиболее весомая находка имеет координаты 4233081 - 4234352 в геноме. По этим координатам находки были определены наиболее вероятные CDS, описанные в таблице локальных особенностей. Для этого использовалась команда:

echo -e '4233081\e4234352\t+\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

С полученным файлом можно ознакомиться здесь. По найденным перекрываниям, скорее всего, описываемая трансляция соответсвует записи в которой указано WP_179264058.1 и N-methyltranferase. Это показывает что выравнивание верное и был найден фермент нужного класса.

6. Поиск по аннотациям кодирующих участков

В данном задании я попробовала произвести поиск по аннотациям кодирующих учасков с использованием кода класса ферментов. Использовались команды, постороенные по следующему шаблону:

elink -db nuccore -target protein -id 'AC' | efilter -query 'EC' | efetch -format 'fasta'

В данный шаблон подставлялись AC геномных элементов организма: NZ_CP058601.1, NZ_CP084880.1, NZ_CP084881.1 и EC изучаемых ферментов: 2.1.1.37 (m5C), 2.1.1.72 (m6A) и 2.1.1.113 (m4C).

По данным запросам были найдены две последовательности с аннотациями BREX-1 system adenine-specific DNA-methyltransferase PglX и DNA cytosine methyltransferase по соотвествующим EC: 2.1.1.72 (m6A), 2.1.1.37 (m5C).