Практикум №9 - поиск ДНК-метилтрансфераз в геноме бактерии Citrobacter Tructae

Этап 1 - получение AC геномной сборки

Получение TaxID

grep ^OX UP000296284.swiss | sort | uniq -c

Выдача:

1 OX   NCBI_TaxID=2562449

После этого нужно было определить, какие есть геномные сборки у данного организма:

datasets summary genome taxon 2562449 --as-json-lines | dataformat tsv genome
. У меня оказалась всего одна сборка, но в разных базах данных. Я выбрал RefSeq

AC сборки: GCF_004684345.1

Этап 2 - скачивание последовательности генома и таблицы локальных особенностей

Скачивание таблицы локальных особенностей и последовательности генома моей сборки:

datasets download genome accession GCF_004684345.1 --include gff3 --include genome

Так как скачанный файл является архивом, я применил команду,

unzip ncbi_dataset.zip
чтобы получить необходимые файлы

Этап 3 - поиск и трансляция открытых рамок считывания

Чтобы проверить, какая таблица генетического кода используется в моей сборке, я применил следующую команду:

efetch -db 'taxonomy' -id '2562449' -format 'xml' > tax.xml

Была использована таблица под номером 11

Для поиска открытых рамок считывания была использована данная команда, с выдачей записанной в файл ORFs.fasta:

getorf GCF_004684345.1_ASM468434v1_genomic.fna ORFs.fasta -minsize 151 -table 11 -find 0

Перед созданием базы данных:

makeblastdb -in ORFs.fasta -dbtype 'prot'
Было проверено отсутсвие отсутсвие транслированных белков, короче 50 а.о. :
infoseq ORFs.fasta | tail -n +2 | cut -f3 -d '-' | sort -n -k2,2 > out_out.txt
такой stdout был применен для удобства просмотра выдачи

Этап 4 - получение последовательностей гомологичных метилтрансфераз

Чтобы скачать последовательности указанных в задании метилтрансфераз я использовал следующую команду:

echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > MetTrs.txt

Чтобы собрать эти последовательности вместе в формате .fasta, была применена команда:

seqret @MetTrs.txt query_MTases.fasta

Этап 5 - поиск по сходству последовательностей

Далее я использовал blastp для поиска сходств между последовательностями организма и метилтрансфераз:

blastp -task blastp -query query_MTases.fasta -db ORFs.fasta -out blastp_MT1.out -outfmt 7
Файл с выдачей blastp

Находка с идентификатором NZ_CP038469.1_35676 имеет наибольший вес: 833; per identity составляет 85.115%, что в целом уже может говорить о гомологичности.

Координаты моей находки: 1530970 - 1529510, был обнаружен гомолог P0AED9 (Dcm, m5C-МТаза, E.coli).

Далее определяем, пересекаются ли координаты находки с координатами с какими-то из CDS при помощи двух команд:

grep NZ_CP038469.1 genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsv
echo -e '1529510\t1530970\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv
Файл с выдачей программы

Было найдено пересечение CDS (ID=cds-WP_135322333.1) с координатами 1529507-1530937 с найденной мной открытой рамкой. Рамка считывания CDS и находки практически одинаковая, с разницей в несколько нуклеотидов с одной стороны (3) и в несколько десятков с другой (33). Аннотация полученного CDS также говорит о том, что данный фрагмент кодирует МТазу (product=DNA cytosine methyltransferase)

Этап 6 - поиск по аннотациям кодирующих участков

На данном этапе нужно определить, смогу ли я найти CDS, соответсвующий моей находки при помощи поиска по аннотации кодирующих участков.

Для поиска CDS по аннотации кодирующих участков в геноме был использован следующий конвейер:

elink -target protein -db nuccore -id NZ_CP038469.1 | efilter -query '2.1.1.37' | efetch -format 'fasta'

В результатах поиска по аннотации для EC-2.1.1.37 (m5C) не было найдено ни одного белка.

Вывод: для фермента (m5C-МТаза), соответсвующего выбранной мной находке, я бы не смог найти по аннотации кодирующих участков в геноме нужный CDS.