Практикум 9. Нахождение ДНК-метилтранферазы в геноме Thermus thermophilus

Задание 1. Информация о геноме Thermus thermophilus HB8

Идентификатор протеома: UP000000532 - по работе из 2 семестра

Ссылка на страницу Genome - по коду доступа GenBank

Код доступа GenBank: GCA_000091545.1 - находится в аннотации записи на сайте UniProt Proteomes

Код доступа RefSeq: GCF_000091545.1 - находится в аннотации записи на сайте NCBI Genomes

Задание 2. Скачивание последовательности генома и таблицы локальных особенностей

При помощи следующей команды я скачал последовательность геном и таблицу локальных особенностей

datasets download genome accession GCF_000091545.1 --filename GCF_000091545.1.zip --include gff3,genome

Затем я распаковал архив командой:

unzip GCF_000091545.1.zip

В итоге у меня получилось два файла:

1) GCF_000091545.1_ASM9154v1_genomic.fna — последовательность генома

1) genomic.gff — таблица локальных особенностей в формате GFF3

Задание 3. Поиск и трансляция открытых рамок считывания

TaxID: 300852 - был найден в NCBI/datasets/taxonomy

Я использовал команду:

efetch -db taxonomy -id 300852 -mode xml > tax.xml

Было выяснено, что архея использует генетический код под номером 11 - стандартный генетический код бактерий, архей и растительных пластид.

Затем при помощи команды я получил открытые рамки считывания, длиной больше 50-ти аминокислот и заключенные между двумя стоп-кодонами:

getorf GCF_000091545.1_ASM9154v1_genomic.fna -table 11 -minsize 150 ORF.out

Затем я использовал infoseq, чтобы удостовериться в том, что длина всех открытых рамок считывания больше или равняется 50. Я использовал команду, которая выводит уникальные длины в а.о. открытых рамок считывания:

infoseq ORF.fasta -filter -only -length | sort -n | less

Затем я создал базу данных с названием proteome при помощи команды makeblastdb:

makeblastdb -in ORF.fasta -dbtype prot -out proteome

Задание 4. Получение последовательностей гомологичных метилтранфераз

Затем при помощи данного конвейера я получил файл с тремя последовательностями белка формата FASTA:

echo " sw:P0AED9 sw:P0AED9 sw:P23941" | tr ' ' '\n' | seqret @stdin -osformat2 fasta -filter -out query.fasta

Задание 5. Поиск по сходству последовательностей.

При помощи команды blastp мною были найдено 14 находок:

4 для m5C-МТаза E.coli — P0AED9

4 для m6A-МТаза E.coli — P0AEE8

6 для m4C-МТаза Bacillus amyloliquefaciens — P23941

Для этого я использовал следующую команду:

blastp -db proteome -query query.fasta -outfmt 7 -out blastp.out

Из всех находок лучшую находку я выбрал по наибольшему bits score, так как этот показатель расчитывается вне зависимости от длины запроса.

Этой находкой оказалась открытая рамка считывания с номером NC_006461.1_2093 и bits score равным 53.1, где в качестве запроса использовалась m4C-МТаза Bacillus amyloliquefaciens. Для того, чтобы найти координаты находки использовал команду:

grep NC_006461.1_2093 ORF.fasta | less

Затем при помощи конвейера я создал таблицу CDS.tsv. Она содержит кодирующие последовательности только хромосомы 1, на которой была найдена лучшая находка. Также таблица содержит только столбцы с наименьшей и наибольшей координатой кодирующей последовательности, типом цепи и дополнительной информацией:

cat genomic.gff | cut -f 1,4,5,7,9 | grep "^NC_006461.1" | cut -f 2-4 > CDS.tsv

Затем используя, конвейер, который был дан в задании, я создал файл neighbors.tsv:

echo -e '387464\t389260\t-\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv

С моей рамкой считывания (387464 - 389260 нуклеотиды) пересеклось сразу 2 CDS: pseudouridine synthase (387447 - 388373) и DNA-methyltransferase (388370 - 389263). ДНК-метилтрансфераза WP_011227916.1 является нужной нам находкой. При этом первая половина открытой рамки считывания пересекается почти полностью с CDS псевдоуридинсинтазы, а вторая половина пересекается полностью с CDS ДНК-метилтранферазой. Координаты конца рамки считывания и конца CDS ДНК-метилтрансферазы имеют разницу в три 3 нуклеотида, что объясняется, скорее всего, тем, что в CDS включен стоп-кодон, а в ORF нет.

Задание 6. Поиск по аннотации кодирующих участков

Моей находке с m4C Bacillus amyloliquefaciens соответствует EC-код фермента 2.1.1.113. При поиске при помощи данного конвейера было найдено ноль находок:

elink -db nuccore -id 'NC_006461' -target 'protein' | efilter -query '2.1.1.113[ECNO]' | efetch -format acс

Поиск по 2.1.1.72 и по 2.1.1.37 также не дал никаких результатов. Затем я решил найти аннотацию моей ДНК-метилтранферазы при помощи следующего конвейера:

efetch -db protein -id WP_011227916.1 -format est | less

EST - это фрагмент мРНК, который используется для идентификации генов. Формат EST содержит подробную информацию о белке, включая его особенности (можно было использовать -format ft), в которых обычно содержится ферментативная классификация. Однако оказалось, что аннотация белка неполная и не содержит в себе информацию о EC-коде фермента.