EMBOSS, Entrez Direct, NCBI Datasets

Выбор протеома Citrobacter tructae

ID: UP000001889

Причина выбора: Протеом содержит полный набор белковых последовательностей организма Citrobacter tructae, что позволяет проводить комплексный биоинформатический анализ.

Подробнее о выборе протеома

Получение AC геномной сборки и TaxID организма

Proteom ID: UP000001889

NCBI RefSeq assembly: GCF_000027085.1

GenBank assembly: GCA_000027085.1

Taxon ID: 637910

Proteom ID: UP000001889
NCBI RefSeq assembly: GCF_000027085.1
GenBank assembly: GCA_000027085.1
Taxon ID: 637910

Скачивание последовательности генома и таблицы локальных особенностей

Для получения последовательности генома в формате FASTA и таблицы локальных особенностей в формате GFF3 использована команда:

datasets download genome accession GCF_000027085.1 --include gff3,genome

Файл распакован командой:

unzip ncbi_dataset.zip

Получены файлы:

GCF_000027085.1_ASM2708v1_genomic.fna

genomic.gff

Поиск и трансляция открытых рамок считывания

Для получения информации о генетическом коде организма использована команда:

efetch -db taxonomy -id 637910 -format xml > taxon.xml

Просмотр файла:

less -S taxon.xml

В поле GeneticCode указано, что используется 11 вариант генетического кода.

Получение открытых рамок считывания:

getorf -sequence GCF_000027085.1_ASM2708v1_genomic.fna -outseq getorf.fasta -table 11 -find 3 -minsize 150

Создание белковой базы данных:

makeblastdb -dbtype prot -in getorf.fasta -out proteome

Проверка минимальной длины последовательностей:

infoseq getorf.fasta -only -length -noheading | sort -n | head -1

Получение последовательностей гомологичных метилтрансфераз

Для получения последовательностей ДНК-метилтрансфераз с кодами P0AED9, P0AEE8, и P23941 использован конвейер:

echo 'P0AED9 P0AEE8 P23941' | tr ' ' '\n' | sed 's/^/sw:/' | seqret @stdin -filter -out query.fasta

Поиск по сходству последовательностей

Локальный поиск BLASTP по базе proteome:

blastp -db proteome -query query.fasta -outfmt 7 -out blast.txt

Результаты поиска: blast.txt

Выбрана лучшая находка: m6A DMA_ECOLI P0AEE8 DNA adenine methylase

Название рамки: NC_013716.1_21821

Координаты: 4691263 - 4692156

Вес: 498 бит, E-value: 0

Сомнений в гомологичности нет, т.к. E-value составило 0, а идентичность составила 86%.(очень большая вероятность гомолога)

Поиск соседних CDS в таблице локальных особенностей:

grep 'NC_013716.1' genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv

Найдено 6 CDS на + цепи, одна из которых пересекается с найденной ORF и кодирует adenine-specific DNA-methyltransferase. (ORF в файле имеет координаты 4691263-4692156, а пересекающий CDS 4691323-4692159, координаты практически совпадают)

neighbors.tsv

echo -e '4691263\t4692156\t+\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv

Поиск по аннотациям кодирующих участков

Поиск CDS по EC-коду фермента ДНК-метилтрансферазы (2.1.1.72):

esearch -db nuccore -query 'NC_013716.1' | elink -target protein | efilter -query '2.1.1.72' | efetch -format acc

Найдено 4 белка, включая WP_012908365.1, который соответствует найденной открытой рамке считывания.