Практикум 9

Данный практикум посвящён поиску одной из ДНК-метилтрансфераз в геноме бактерии Pseudomonas syringae pv. syringae по последовательности и по аннотации с помощью следующих средст: EMBOSS, EDirect, NCBI Datasets CLI и blast+.

В 8 практикуме прошлого семестра мной был изучен протеом Pseudomonas syringae pv. syringae (UP000000426), теперь будет проведена работа с геномом данной бактерии, на основе которого был получен ранее рассмотренный протеом.

Этап 1. Получение AC геномной сборки.

Сначала из скачанного файла протеома Pseudomonas syringae pv. syringae (см. упомянутый 8 практикум) с помощью следующей команды был получен TaxID организма:

grep '^OX' UP000000426.swiss | tr ' ' '|' | tr -d ';' | cut -f4 -d '|' | sort | uniq -c

Выдача: 5071 NCBI_TaxID=205918

datasets summary genome taxon 205918 --as-json-lines | dataformat tsv genome | less

Для данной бактерии есть только одна сборка в двух версиях - GenBank и RefSeq - для дальнейшей работы была выбрана версия RefSeq, так как она лучше аннотированна.

AC геномной сборки Pseudomonas syringae pv. syringae: GCF_000012245.1

Этап 2. Cкачивание последовательности генома и таблицы локальных особенностей.

Зная AC геномной сборки бактерии, с помощью следующей команды я скачала геном и таблицу локальных особенностей:

datasets download genome accession GCF_000012245.1 --include gff3 --include genome

После загрузки архива с файлами он был распакован следующим образом:

unzip ncbi_dataset.zip

Этап 3. Поиск и трансляция открытых рамок считывания.

Перед тем, как определять открытые рамки считывания, необходимо выяснить, какой вариант генетического кода использует бактерия Pseudomonas syringae pv. syringae, что было сделано с помощью следующей комады:

efetch -db 'taxonomy' -id '205918' -format 'xml'

В одном из полей выдачи было написано:

<GeneticCode>

<GCId>11</GCId>

<GCName>Bacterial, Archaeal and Plant Plastid</GCName>

</GeneticCode>

Значит, чтобы определять открытые рамки считывания у Pseudomonas syringae pv. syringae, необходимо пользоваться 11 таблицей.

Далее с помощью ниже приведённой команды ищем открытые рамки считывания, которые будут записаны в файл frames:

getorf -sequence 'GCF_000012245.1_ASM1224v1_genomic.fna' -outseq 'frames' -table 11 -minsize 150

Создаём по открытым рамкам считывания белковую базу для blastp, которую назовём ORFs:

makeblastdb -in frames -dbtype prot -out ORFs

На всякий случай проверим, что среди транслированных белков нет тех, котроые короче 50 а.о., с помощью команды:

infoseq 'frames' -only -length | tail -n +2 | sort -n | less

Этап 4. Получение последовательностей гомологичных метилтрансфераз.

Предполагается, что у всех прокариот ДНК-метилтрансферазы содержат гомологичные каталитические домены, поэтому попытаемся найти хотя бы одну ДНК-метилтрансферазу у Pseudomonas syringae pv. syringae на основе сходства с одной из следующих ДНК-метилтрансфераз (указаны их коды доступа в Swiss-Prot):

P0AED9 (Dcm, m5C-МТаза, E.coli)

P0AEE8 (Dam, m6A-МТаза, E.coli)

P23941 (m4C-МТаза, Bacillus amyloliquefaciens)

Были скачены последовательности этих ДНК-метилтрансфераз, которые на следующем этапе будут использованы в программе blastp.

echo 'sw:P0AED9,sw:P0AEE8,sw:P23941' | tr ',' '\n' | seqret -filter '@stdin' query_MTases.fasta

Этап 5. Поиск по сходству последовательностей.

Поиск гомологов осуществлялся при помощи blastp в созданной базе ORFs следующей командой:

blastp -query 'query_MTases.fasta' -db 'ORFs' -outfmt 7 -out 'end'

Результат поиска в файле. Итак, для DCM_ECOLI было найдено 6 находок, для DMA_ECOLI - 3, для MTB1_BACAM - 7. Лучшей находка была найдена для DCM_ECOLI (название её рамки - NC_007005.1_54578), так как её вес составляет 60.1, а E-value равно 7.29e-10, что говорит о том, что это неслучайная находка, а, скорее всего, гомолог. Координаты находки в геноме (если смотреть файл с открытыми рамками считывания frames): 1621538 - 1623088.

Теперь ищем в геноме кодирующую последовательность (CDS) с координатами как у выбранной находки.

Для этого выделим из таблицы локальных особенностей генома (genomic.gff, полученный после распаковки архива с файлами ncbi_dataset.zip) информацию о координатах и аннотацию всех CDS следующей командой в файл CDS.tsv:

grep '^NC_007005.1' genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv

Теперь по координатам находки blastp определим, какие кодирующие последовательностей генома располагаются рядом с выбранной находкой:

echo -e '1621538\t1623088\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

Результаты команды в файле. Была найдена CDS (DNA cytosine methyltransferase; protein_id=WP_011267012.1), координаты которой пересекаются с выбранной находкой (координаты CDS: 1621535 - 1622950).

Этап 6. Поиск по аннотациям кодирующих участков.

В завершении, попробуем осуществить поиск нужной CDS по аннотации кодирующих участков в геноме, используя соответсвующий EC-код ДНК-метилтрансферазы - 2.1.1.37 (m5C):

elink -target 'protein' -db 'nuccore' -id 'NC_007005.1' | efilter -query '2.1.1.37' | efetch -format 'fasta'

В результате нашелся 1 белок (WP_147142020.1) и он совпадает с найденным в предыдущем пункте.

Небольшое отступление

1. Скорее, это напоминание мне на будущее, что не надо проводить команды в папке public_html, о чём было сказано в задании (я всё время думала, что работаю в нужной папке ~/term3/pr9, а, на самом деле, работала в папке ~/public_html/term3/pr9, видимо глаз замылился), потому что команда по созданию белковой базы не давала нужных мне файлов, я получала заблокированный файл ORFs.pdb-lock. Но я решила исхитриться и провести эту команду на своём компьютере, так как для предыдущего практикума был скачен пакет blast+, и (о, чудо!) на своём компьютере я получила нужные файлы, и ещё при проведении данной команды на своём компьютере файл frames не надо было указывать в кавычках, потому что тогда программа воспринимала кавычка как часть названия... После проведения данной команды я переместила нужные мне файлы за счёт sftp опять в папку ~/public_html/term3/pr9, из-за чего не могла провести 1 команду на 5 этапе.

2. Просто забавный факт: когда я решила посмотреть информацию про геномную сборку Pseudomonas syringae pv. syringae на сайте NCBI, то обнаружила, что данная сборка была произведена (или выложена на сайт) в День моего рождения - 12 мая 2005 года)