EMBOSS, Entrez Direct, NCBI Datasets

Протеом Tetragenococcus halophilus

ID: UP000236214.

обоснование его выбора: анализ протеома.

Получение AC геномной сборки и TaxID организма

Proteom ID: UP000236214;
NCBI RefSeq assembly: GCF_002897535.1;
GenBank assembly: GCA_002897535.1;
Taxon ID: 1513897.

Cкачивание последовательности генома и таблицы локальных особенностей

Чтобы получить последовательность (fasta-формат) и таблицу локальных особенностей (gff3-формат), была использована команда:

datasets download genome accession GCF_002897535.1 --include gff3,genome

Получен zip-архив, распаковав его командой unzip, получили следующие файлы:

Поиск и трансляция открытых рамок считывания

Сначала надо определить, какую таблицу генетического кода использует организм. Для этого получим его запись в базе данных taxonomy.

efetch -db 'taxonomy' -mode 'xml' -id '1513897' | less

В поле GeneticCode указан 11 вариант генетического кода.

Получим ORF и сразу протранслируем их, а потом получим белковую базау данных по этим ORF:

getorf -table 11 'ncbi_dataset/data/GCF_002897535.1/GCF_002897535.1_ASM289753v1_genomic.fna' -minsize 150 -outseq 'orf.fasta'
makeblastdb -dbtype prot -in orf.fasta -out proteome

Проверим, что нет ORF длиною меньше 50:

infoseq -filter -only -length orf.fasta | sort -n | less

Получение последовательностей гомологичных метилтрансфераз

Получим последовательности ДНК-метилтрансфераз: P0AED9 (E.coli), P0AEE8 (E.coli), P23941 (Bacillus amyloliquefaciens), указаны коды доступа в базе Swiss-Prot.

echo "P0AED9 P0AEE8 P23941" | tr ' ' '\n' | sed 's/^/sw:/' | seqret @stdin -filter -out query.fasta

Поиск по сходству последовательностей

В качестве запроса последовательности из предыдущего пункта и использая blastp (по базе данных proteome созданной в четвертом пункте) попробуем найти сходные ORF.

blastp -db proteome -query query.fasta -outfmt 7 -out blast.out

Ссылка на выдачу blastp: blast.out.

Далее весь анализ связан с находкой, у которой наибольший вес. Характеристики находки представлены в таблице 1.

Название рамкиNZ_BDEC01000011.1_22
Предполагаемый гомолог m4C
координаты в геноме*9735 - 11342
цепь+

*Координаты найдены в описании рамки в файле с рамками

Выберем нужные столбцы из gff-файла (4 и 5 - координаты, 7 - цепь, 9 - доп.иформация) для дальнейшего анализа

cut -f 4,5,7,9 ncbi_dataset/data/GCF_002897535.1/genomic.gff >> CDS.tsv

Попробуем найти аннотированные CDS близкие к нашей находке:

echo -e '9735\t11342\t+\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv

Близкие CDS: neighbors.tsv.

Найдена СDS на той же цепи, начало не совпадает (мы искали от стоп-кодона, не от старт-кодона), конец на три нуклеотида раньше - стоп-кодон.
В опсиании этой CDS (WP_103103312.1) указано, что белок обладает ДНК-метилтрансферазной активностью.

Поиск по аннотациям кодирующих участков

Используя нашу находку, попробуем найти CDS по наличию в аннотации EC-кода фермента ДНК-метилтрансферазы (2.1.1.113 для m4C).

elink -id 'NZ_BDEC01000011' -db nuccore -target 'protein' | efilter -query '(2.1.1.72)' | efetch -format acc

Найден всего 1 белок, и это WP_103103312.1 из предудщего пункта.