EMBOSS, Entrez Direct, NCBI Datasets

Протеом бактерии Defluviicoccus vanus

В предыдущем семестре был скачан протеом моей бактерии (Defluviicoccus vanus) и он всё это время оставался на кодомо. Но вот напоминание, какой командой этот протеом был скачан:

# * - https://rest.uniprot.org
wget '*/...proteome:UP000516369' -O UP000516369.swiss.gz

Получение AC геномной сборки и TaxID Defluviicoccus vanus

На странице протеома можно найти идентификатор протеома: UP000516369; и код доступа геномной сборки из GenBank: GCA_014672695.1. С помощью него можно произвести поиск в NCBI Datasets Genome. На странице NCBI Datasets Genome можно найи версию данной сборки в RefSeq, у моей бактерии это: GCF_014672695.1.

Скачивание последовательности генома и таблицы локальных особенностей

Для дальнейшей работы были скачаны геном и таблица локальных особенностей с помощью следующей команды:

# Скачивание архива с геномом и таблицей особенностей
datasets download genome accession GCF_014672695.1 --include genome,gff3

Дальше я разархивировал полученные даные с помощью команды:

# Распаковка архива
unzip ncbi_dataset.zip

Поиск и трансляция открытых рамок считывания

Для начало была получена информация о том, какой вариант генетического кода использует выбранный организм. ID таксона (111831) было получено со страницы UniProt. Это было сделанно с помощью команды:

# Вариант ген кода
efetch -db taxonomy -id 111831 -format xml

На выход получили xml, где нас интересует блок <GeneticCode>, и в нём подблок <GCId>. У моей бактерии стоит число 11, что является наиболее распространённым для бактерий.

Затем были получены рамки между стоп-кодонами, не короче 50 аминокислотных остатков с помощбю команды:

# Нахождение рамок между стоп-кодонами
getorf -table 11 -minsize 150 -find 0 -sequence GCF_014672695.1_ASM1467269v1_genomic.fna -outseq promejutok

Для проверки того, что все последовательности не меньше 50 а.к. была проведена проверка с помощью infoseq:

# Вариант ген кода
infoseq -sequence promejutok -only -length | awk '$1 < 50 {count++} END {print count}'

Потом по этому файлу с последовательностями была создана белковая база данных, для дальнейшего использования алгоритма blast. Это было сделано с помощью команды:

# Белковая база
makeblastdb -in promejutok -dbtype prot -out proteome

Получение последовательностей гомологичных метилтрансфераз

Для получения последовательностей гомологичных метилтрансфераз была написана команда:

# Получение последовательностей метилтрансфераз
echo 'sw:P0AED9 sw:P0AEE8 sw:P23941' | tr ' ' '\n' | seqret -filter '@stdin' -outseq query.fasta

Поиск по сходству последовательностей

Далее был применён алгоритм BLAST поиска сходства. Это было сделано с помощью команды:

# Применение blastp для поиска сходства
blastp -query query.fasta -db proteome -outfmt 7 -out blastp.out

Была получена таблица, в которой была выбрана лучшая находа NZ_CP053923.1_15182 с evalue 3,13 × 10-13. Оказалось, что нашёлся гомолог m4C метилтрансферазы.

Чтобы узнать координаты находки, была применена команда:

# Применение blastp для поиска сходства
grep 'NZ_CP053923.1_15182' promejutok

Координаты: 2674046 - 2675512.

Затем для нахождения в таблице локальных особенностей ближайших кодирующих последовательностей были написаны следующие команды:

# Нужные колонки и строчки из таблицы особенностей
cut -f 3,4,5,7,9 genomic.gff | grep '^CDS' | cut -f 2-5 > CDS.tsv

# Включение нашей находки в таблицу и соседи
echo -e '2674046\t2675512\t+\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv

Ссылка на файл с соседними CDS.

В последнем представленном файле наша находка пересекается с двумя соседями, одним выше и одним ниже, однако полного совпадения нет. Но можно заметить, что наша находка хорошо перекрывается с нижним соседом.

Поиск по аннотациям кодирующих участков

Для поиска по аннотациям мне понадобилась команда:

# Поиск по аннотациям
elink -db 'nuccore' -id 'NZ_CP053923.1' -target 'protein' |
efilter -query '(2.1.1.37[ECNO] OR 2.1.1.72[ECNO] OR 2.1.1.113[ECNO])'

Однако число находок оказалось равным нулю. Это говорит о том, что я бы не смог найти CDS по аннотации кодирующих участков.

Также хочется отметть, что метилтрансфераза у моей бактерии всё таки есть. Нижний сосед моей находи является метилтрансферазой, но у него нет EC-кода. Его AC: WP_317628942. На сайте NCBI, в базе данных Protein указан только продукт (site-specific DNA-methyltransferase) и предсказанная молекулярная масса.