Практикум 9

Поиск ДНК-метилтрансфераз в геноме бактерии Sutcliffiella cohnii средствами EMBOSS, EDirect, NCBI Datasets CLI и blast+ по последовательности и по аннотации

Для работы была выбрана бактерия Sutcliffiella cohnii.

Proteome ID UP000215224

Код доступа геномной сборки из GenBank GCA_002250055.1

Код доступа геномной сборки из RefSeq GCF_002250055.1

Taxonomy ID 33932

Cсылка на страницу NCBI Datasets Genome

Протеом бактерии

В прошлом семестре мной был скачан протеом бактерии с помощью команды:
 curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000215224)' > UP000215224.swiss.gz  

Скачивание последовательности генома и таблицы локальных особенностей

Команда для скачивания последовательности генома и таблицы локальных особенностей:

datasets download genome accession GCF_002250055.1 --include genome,gff3

Команда для распаковки архива:

 unzip ncbi_dataset.zip

Поиск и трансляция открытых рамок считывания

Сначала было определен вариант генетического кода, используемый организмом:
 efetch -db taxonomy -id 33932 -format xml > tabcode.xml

И было получено, что бактерия использует таблицу №11 генетического кода

Далее были найдены и транслированы открытые рамки считывания. Чтобы отбросить маловероятные короткие фрагменты длина трансляций была задана не короче 50 аминокислот (150 нуклеотидов).

getorf -sequence ncbi_dataset/data/GCF_002250055.1/GCF_002250055.1_ASM225005v1_genomic.fna -table 11 -minsize 150 -outseq ORF.fasta

С помощью программы infoseq было проверено,что среди трансляций нет тех, которые короче 50 аминокислотных остатков:

infoseq ORF.fasta -only -length| sort -n |less
На основе полученных трансляций открытых рамок считывания создана локальная база данных для blastn, названная proteome

 makeblastdb -in ORF.fasta -dbtype prot -out proteome

Получение последовательностей гомологичных метилтрансфераз

В качествe последовательностей ДНК-метилтрансфераз были выбраны и загружены командой ниже P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).
echo 'sw:P0AED9 sw:P0AEE8 sw:P23941'| tr ' ' '\n'|seqret -filter @stdin -outseq query.fasta

Поиск по сходству последовательностей

С помощью локального blastp был выполнен поиск последовательностей,схожих с ДНК-метилтрансферазами, загруженными ранее в query.fasta

blastp -db proteome -query query.fasta -outfmt 7 -out blast.tab
выдача blastp

Результат лучший по весу NZ_CP018866.1_3643

score 31.2

e-value 0.16

Является гомологом m6A-МТазы, E.coli

Координаты в геноме бактерии Sutcliffiella cohnii [1736547 - 1737692] получены командой

grep  NZ_CP018866.1_3643 ORF.fasta

Маленький вес находки вызывает сомнения по поводу ее гомологичности, но это находка с наибольшим весои и наименьшим e-value

Далее были найдены CDS, распологающиеся рядом в таблице локальных особенностей.

Отобраны столбцы – с координатами (4 и 5), цепью (7) и дополнительной информацией (9)

cut ncbi_dataset/data/GCF_002250055.1/genomic.gff -f 3,4,5,7,9 | grep "^CDS" | cut -f 2-5 >CDS.tsv
CDS

Для находки NZ_CP018866.1_3643 отбраны соседние CDS:

echo -e '1736547\1737692\t+\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv
neighbors.tsv

C открытой рамкой считывания пересекаются 2 CDS. Среди них есть -WP_066411848.1 c координатами 1736598- 1737695, но в описании указано, что это гипотетический белок. Вторая CDS является ДНК-связывающим транскрипционным фактором. A на NCBI мной была уточнена функция данного белка - это σ⁷⁰-фактор РНК-полимеразы семейства sigma-70. Таким образом, найти ДНК-метилтрансферазы не удалось.

Поиск по аннотациям кодирующих участков

Попробуем найти Днк-метилтрансферазы с помощью поиска по аннотации кодирующих участков в геноме. Поиск проводился по всем 3 ЕС кодам 2.1.1.37 (m5C), 2.1.1.72 (m6A) и 2.1.1.113 (m4C)
elink -db nuccore -target protein -id 'NZ_CP018866.1' | efilter -query '(2.1.1.37[ECNO] OR 2.1.1.72[ECNO] OR 2.1.1.113[ECNO])' 
Нашлась одна находка WP_066411219.1 - это субъединица M системы рестрикции-модификации I типа, эта метилтрансфераза участвует в метелировании собсвенных аденинов, защищая их от разрезания. Изначально найти ее не удалось, вероятно, потому что она не гомологична классическим метилтрансферазам, которые были загружены.