Поиск ДНК-метилтрасфераз
В данном практикуме использовался уже скачанный протеом археи Natrinema halophilum.
Для начала из файла с протеомом UP000509241.swiss был получен идентификатор TaxID с помощью команды:
grep '^OX' UP000509241.swiss| cut -c -24 | sort | uniq -c |
Далее с помощью опредленного TaxID 1699371 была получена информация о доступных сборках. Использовалась команда:
datasets summary genome taxon '1699371' > sum.json |
В полученном файле json оказалась информация о двух достпуных сборках, одна из которых версия RefSeq. Она и была использована в дальнейших упражнениях.
В прошлом задании опредлен AC сборки GCF_013402815.2. Для скачивания генома в формате fasta и табицы локальных особенностей была использована команда:
datasets download genome accession GCF_013402815.2 --include genome,gff3 |
Прежде чем искать открытые рамки считывания необходимо было получить информацию о таблице генетического кода, исползуемой данным организмом. Для этой цели была использована команда:
efetch -db 'taxonomy' -id '1699371' -format 'xml' |
Из полученной информации формата xml было установлено, что организм использует таблицу 11, которая называется Bacterial, Archaeal and Plant Plastid.
Далее в геноме были найдены открытые рамки считывания между стоп-кодонами с минимальным размером после трансляции 50 аминокислот. Полученные прочтения помещены в файл для дальнейшей работы. Для этого использовалась команда:
getorf -filter 'GCF_013402815.2_ASM1340281v2_genomic.fna' -table 11 -minsize 150 -find 0 'db.fasta' |
После этого на основании полученного файла db.fasta была создана белковая база для blastp - ORFs:
makeblastdb -dbtype prot -in db.fasta -out ORFs |
Кроме того полученные трансляции были проверены на точное ограничение по длине прочтения. Для этого использовалась команда, в результате работы которой было установлена что длинна действительно не менее 50 аминокислот.
infoseq -filter db.fasta -only -Length | tail -n +2 | sort -n |
По моей логике данная команда работает так: получаем список длин последовательностей из файла для создания базы данных, убираем заголовок "Lenght", сортируем и получаем список длин. Таким образом, так как первая длина в отсортированном по возрастанию списке - 50, можно сделать вывод, что отобраны верные открытые рамки считывания.
Для дальнейших упражнений понадобятся последовтельности метилтрасфераз из других микроорганизмов. Для того чтобы получить нужные, была использована команда использующая USA с идентификаторами:
echo "sw:P0AED9" "sw:P0AEE8" "sw:P23941" | tr ' ' '\n'| seqret -filter -auto 'list:stdin' 'query_MTases.fasta' |
Таким образом был получен файл query_MTases в формате fasta с тремя последовательностями ферментов.
Полученные последовательности метилтрасфераз были использованы в роли запроса для blatp по созданной ранее базе данных ORFs:
blastp -query query_MTases.fasta -db ORFs -outfmt 7 > out.txt |
С табличной выдачей работы blast можно ознакомиться в файле. Наиболее весомая находка в геноме обнаружена при поиске N(4)- cytosine-specific methyltransferase BamHI. Соответсвующий идентификатор в индексированных рамках считывания - NZ_CP058601.1_25146. E-value - 3.83e-120, процент идентичности последовтельностей 44.5, что логично так как открыте рамки считывания для археи.
Наиболее весомая находка имеет координаты 4233081 - 4234352 в геноме. По этим координатам находки были определены наиболее вероятные CDS, описанные в таблице локальных особенностей. Для этого использовалась команда:
echo -e '4233081\e4234352\t+\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv |
С полученным файлом можно ознакомиться здесь. По найденным перекрываниям, скорее всего, описываемая трансляция соответсвует записи в которой указано WP_179264058.1 и N-methyltranferase. Это показывает что выравнивание верное и был найден фермент нужного класса.
В данном задании я попробовала произвести поиск по аннотациям кодирующих учасков с использованием кода класса ферментов. Использовались команды, постороенные по следующему шаблону:
elink -db nuccore -target protein -id 'AC' | efilter -query 'EC' | efetch -format 'fasta' |
В данный шаблон подставлялись AC геномных элементов организма: NZ_CP058601.1, NZ_CP084880.1, NZ_CP084881.1 и EC изучаемых ферментов: 2.1.1.37 (m5C), 2.1.1.72 (m6A) и 2.1.1.113 (m4C).
По данным запросам были найдены две последовательности с аннотациями BREX-1 system adenine-specific DNA-methyltransferase PglX и DNA cytosine methyltransferase по соотвествующим EC: 2.1.1.72 (m6A), 2.1.1.37 (m5C).