Данный практикум посвящён поиску одной из ДНК-метилтрансфераз в геноме бактерии Pseudomonas syringae pv. syringae по последовательности и по аннотации с помощью следующих средст: EMBOSS, EDirect, NCBI Datasets CLI и blast+.
В 8 практикуме прошлого семестра мной был изучен протеом Pseudomonas syringae pv. syringae (UP000000426), теперь будет проведена работа с геномом данной бактерии, на основе которого был получен ранее рассмотренный протеом.
Сначала из скачанного файла протеома Pseudomonas syringae pv. syringae (см. упомянутый 8 практикум) с помощью следующей команды был получен TaxID организма:
grep '^OX' UP000000426.swiss | tr ' ' '|' | tr -d ';' | cut -f4 -d '|' | sort | uniq -c
Выдача: 5071 NCBI_TaxID=205918
datasets summary genome taxon 205918 --as-json-lines | dataformat tsv genome | less
Для данной бактерии есть только одна сборка в двух версиях - GenBank и RefSeq - для дальнейшей работы была выбрана версия RefSeq, так как она лучше аннотированна.
AC геномной сборки Pseudomonas syringae pv. syringae: GCF_000012245.1
Зная AC геномной сборки бактерии, с помощью следующей команды я скачала геном и таблицу локальных особенностей:
datasets download genome accession GCF_000012245.1 --include gff3 --include genome
После загрузки архива с файлами он был распакован следующим образом:
unzip ncbi_dataset.zip
Перед тем, как определять открытые рамки считывания, необходимо выяснить, какой вариант генетического кода использует бактерия Pseudomonas syringae pv. syringae, что было сделано с помощью следующей комады:
efetch -db 'taxonomy' -id '205918' -format 'xml'
В одном из полей выдачи было написано:
<GeneticCode>
<GCId>11</GCId>
<GCName>Bacterial, Archaeal and Plant Plastid</GCName>
</GeneticCode>
Значит, чтобы определять открытые рамки считывания у Pseudomonas syringae pv. syringae, необходимо пользоваться 11 таблицей.
Далее с помощью ниже приведённой команды ищем открытые рамки считывания, которые будут записаны в файл frames:
getorf -sequence 'GCF_000012245.1_ASM1224v1_genomic.fna' -outseq 'frames' -table 11 -minsize 150
Создаём по открытым рамкам считывания белковую базу для blastp, которую назовём ORFs:
makeblastdb -in frames -dbtype prot -out ORFs
На всякий случай проверим, что среди транслированных белков нет тех, котроые короче 50 а.о., с помощью команды:
infoseq 'frames' -only -length | tail -n +2 | sort -n | less
Предполагается, что у всех прокариот ДНК-метилтрансферазы содержат гомологичные каталитические домены, поэтому попытаемся найти хотя бы одну ДНК-метилтрансферазу у Pseudomonas syringae pv. syringae на основе сходства с одной из следующих ДНК-метилтрансфераз (указаны их коды доступа в Swiss-Prot):
P0AED9 (Dcm, m5C-МТаза, E.coli)
P0AEE8 (Dam, m6A-МТаза, E.coli)
P23941 (m4C-МТаза, Bacillus amyloliquefaciens)
Были скачены последовательности этих ДНК-метилтрансфераз, которые на следующем этапе будут использованы в программе blastp.
echo 'sw:P0AED9,sw:P0AEE8,sw:P23941' | tr ',' '\n' | seqret -filter '@stdin' query_MTases.fasta
Поиск гомологов осуществлялся при помощи blastp в созданной базе ORFs следующей командой:
blastp -query 'query_MTases.fasta' -db 'ORFs' -outfmt 7 -out 'end'
Результат поиска в файле. Итак, для DCM_ECOLI было найдено 6 находок, для DMA_ECOLI - 3, для MTB1_BACAM - 7. Лучшей находка была найдена для DCM_ECOLI (название её рамки - NC_007005.1_54578), так как её вес составляет 60.1, а E-value равно 7.29e-10, что говорит о том, что это неслучайная находка, а, скорее всего, гомолог. Координаты находки в геноме (если смотреть файл с открытыми рамками считывания frames): 1621538 - 1623088.
Теперь ищем в геноме кодирующую последовательность (CDS) с координатами как у выбранной находки.
Для этого выделим из таблицы локальных особенностей генома (genomic.gff, полученный после распаковки архива с файлами ncbi_dataset.zip) информацию о координатах и аннотацию всех CDS следующей командой в файл CDS.tsv:
grep '^NC_007005.1' genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv
Теперь по координатам находки blastp определим, какие кодирующие последовательностей генома располагаются рядом с выбранной находкой:
echo -e '1621538\t1623088\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv
Результаты команды в файле. Была найдена CDS (DNA cytosine methyltransferase; protein_id=WP_011267012.1), координаты которой пересекаются с выбранной находкой (координаты CDS: 1621535 - 1622950).
В завершении, попробуем осуществить поиск нужной CDS по аннотации кодирующих участков в геноме, используя соответсвующий EC-код ДНК-метилтрансферазы - 2.1.1.37 (m5C):
elink -target 'protein' -db 'nuccore' -id 'NC_007005.1' | efilter -query '2.1.1.37' | efetch -format 'fasta'
В результате нашелся 1 белок (WP_147142020.1) и он совпадает с найденным в предыдущем пункте.
1. Скорее, это напоминание мне на будущее, что не надо проводить команды в папке public_html, о чём было сказано в задании (я всё время думала, что работаю в нужной папке ~/term3/pr9, а, на самом деле, работала в папке ~/public_html/term3/pr9, видимо глаз замылился), потому что команда по созданию белковой базы не давала нужных мне файлов, я получала заблокированный файл ORFs.pdb-lock. Но я решила исхитриться и провести эту команду на своём компьютере, так как для предыдущего практикума был скачен пакет blast+, и (о, чудо!) на своём компьютере я получила нужные файлы, и ещё при проведении данной команды на своём компьютере файл frames не надо было указывать в кавычках, потому что тогда программа воспринимала кавычка как часть названия... После проведения данной команды я переместила нужные мне файлы за счёт sftp опять в папку ~/public_html/term3/pr9, из-за чего не могла провести 1 команду на 5 этапе.
2. Просто забавный факт: когда я решила посмотреть информацию про геномную сборку Pseudomonas syringae pv. syringae на сайте NCBI, то обнаружила, что данная сборка была произведена (или выложена на сайт) в День моего рождения - 12 мая 2005 года)