Практикум 9

Протеом бактерии

В практикуме номер 8 я рассматривал референсный протеом бактерии Acinetobacter baumannii с идентификатором UP000005740. Он содержит 10 аннотированных в swiss-prot белков и 3765 белков всего.

Получение AC геномной сборки

Чтобы найти геномную сборку для начала нужно найти Tax_id данного организма. "UP000005740.swiss.gz" - файл скопированный из "~/term2/pr8/". В данной команде мы рассматриваем строки начинающиеся на "OX".

zcat UP000005740.swiss.gz | grep '^OX' | cut -b11-23 | sort | uniq -c

В выдаче оказалось 3765 строк "TaxID=575584". Далее я вывел список всех геномных сборок этого организма в формате tsv, где столбцы разделены табуляциями.

datasets summary genome taxon 575584 --as-json-lines | dataformat tsv genome --fields 'accession,organism-name,assminfo-name,organism-infraspecific-strain'

По этому запросу нащлось 6 разлтчных сборок, 4 из них находятся в refseq, однако только сборка GCA_019331655.1 имеет уровень сборки complete genome, остальные имеют уровнеь сборки scaffold, далее будем рассматривать ее.

Скачивание последовательности генома и таблицы локальных особенностей

Для загрузки данной сборки с геномом и таблицей локальный особенностей была использована команда.

datasets download genome accession GCA_019331655.1 --include gff3 --include genome

Скачанный архив был разархивирован с помощью команды.

unzip ncbi_dataset.zip

Поиск и трансляция открытых рамок считывания

Для поиска рамок считывания нужно сперва проверить какая таблица генетического кода соответсвует данному организму, для этого нужно рассмотрить запись из NCBI Taxonomy.

efetch -db 'taxonomy' -id '575584' -format 'xml' > taxonomy.xml

В поле GCid было указано что данный организм использует стандартную 11ую таблицу. Для поиска рамок считывания была выполнена следущая программа.

getorf -sequence "./ncbi_dataset/data/GCA_019331655.1/GCA_019331655.1_ASM1933165v1_genomic.fna" -outseq "./orfs.fasta" -minsize 150 -table 11 -find 0

Далее с помощью конвейера я проверил что среди транслированных белков нету тех, что короче 50 аминокислотных остатков.

infoseq orfs.fasta -only -length | sort -n | uniq | less

Таких не оказалось, минимальная длина-50 амк

Далее была создана база данных с помощью команды

makeblastdb -in orfs.fasta -dbtype prot -out ProtORFs

Получение последовательностей гомологичных метилтрансфераз

Далее было предложено сравнить ДНК-метилтрансферазы в геноме с гомологичными последовательностями у Bacillus amyloliquefaciens и E. Coli. Так как не удалось заставить читать seqret из STDIN я сделал это задание в два этапа.

echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > trans.txt

и уже затем

seqret @trans.txt query_MTases.fasta

Поиск по сходству последовательностей

Далее используя blastp, созданную ранее базу данных бласт и файл с гомологичными метилтрансферазами из прошлого пункта в качестве запроса мы получаем команду.

blastp -db ProtORFs -query query_MTases.fasta -outfmt 7 -out blastp_out.out

Ссылка на текстовую выдачу. Наилучшей по весу оказалась находка NC_016603.1_7788, с помощью команды cat ./orfs.fasta | grep '^>NC_016603.1_7788' я нашел координаты находки [3367383 - 3368714]. Далее необходимо найти с какими кодирующими белки участками(CDS), пересекается эта находка, сперва нужно создать CDS файл содержащий кодирующие учатски той же нуклеотидной последовательности. Из файла локальныйх особенностей беруться соответсвующие строки с столбцами 4,5,7,9.

grep NC_016603.1 genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsv

Далее ищем участки перекрывающиеся с находкой с помощью команды.

echo -e '3367383\t3368714\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

Ссылка на текстовую выдачу. В координатах 3367425 3368717 моя находка перекрывается с геном DNA modification methylase, что говорит о том что мы нашли гомолог m4C-МТазы.

Поиск по аннотациям кодирующих участков

Напоследок был осуществлен поиск нужных CDS по аннтоции с помощью конвейера и с EC соответствующих ферментов: 2.1.1.37 (m5C), 2.1.1.72 (m6A) и 2.1.1.113 (m4C). Однако ничего найдено не было.

elink -target protein -db nuccore -id NC_016603.1 | efilter -query '2.1.1.37' | efetch -format 'fasta'

elink -target protein -db nuccore -id NC_016603.1 | efilter -query '2.1.1.72' | efetch -format 'fasta'

elink -target protein -db nuccore -id NC_016603.1 | efilter -query '2.1.1.113' | efetch -format 'fasta'