Zekhova.EMBOSS

Практикум 9

В прошлом семестре был исследован протеом Borreliella burgdorferi

1. Получение AC геномной сборки и TaxID организма

Proteome ID: UP000001807

Ссылка на страницу в Proteomes

Код доступа сборки GenBank: GCA_000008685.2

Ссылка на страницу сборки в Genome

Код доступа из RefSeq: GCF_000008685.2

NCBI_TaxID=224326 записан в поле OX в файле UP000001807.swiss.gz (zgrep '^OX' UP000001807.swiss.gz | head -1)

2. Cкачивание последовательности генома и таблицы локальных особенностей

Команды для скачивание геномной сборки и распаковки скачанного архива:

datasets download genome accession GCF_000008685.2 --include gff3,genome
unzip ncbi_dataset.zip

В архиве находится таблица локальных особенностей в формате gff3 и последовательность генома в формате fasta (также файл jsnol с метаданными сборки генома и аннотациями и json со списком файлов и их типов).

3. Поиск и трансляция открытых рамок считывания

Определим, какой вариант генетического кода использует исследуемая бактерия

efetch -db 'taxonomy' -id '224326' -format 'native' -mode 'xml'

Borreliella burgdorferi использует таблицу кода 11 (<GeneticCode> <GCId>11</GCId>).

Команды для поиска открытых рамок считывания и получения их трансляции:

getorf GCF_000008685.2_ASM868v2_genomic.fna ORF_translation.fasta -table 11 -minsize 150 -find 0

Используем таблицу генетического кода 11, -minsize 150 - трансляции не короче 50 аминокислот, -find 0 - рамки между стоп-кодонами.

Создаём по трансляциям белковую базу для blastp

makeblastdb -in ORF_translation.fasta -dbtype prot -out proteome

Проверяем, что среди трансляций нет тех, которые короче 50 а.о

infoseq ORF_translation.fasta -filter -only -length | sort -n | less

4. Получение последовательностей гомологичных метилтрансфераз

Сначала скачаем последовательности белков из Swiss-Prot, с которыми будем проверять сходство

echo 'sw:P0AED9 sw:P0AEE8 sw:P23941' | tr ' ' '\n' | seqret -filter 'list::stdin' -outseq query.fasta

В результате получили файл query.fasta с последовательностями.

5. Поиск по сходству последовательностей

blastp -query query.fasta -db proteome -out blastp.txt -outfmt 7

Ссылка на выдачу blastp

Лучшая по весу (28.9 bits) находка: NC_001318.1_435; гомолог - P23941 (m4C-МТаза, Bacillus amyloliquefaciens).

Команда для получения координат находки в геноме:

grep '^>NC_001318.1_435' ORF_translation.fasta

Координаты: 195678 - 197693

Теперь по координатам находки можно понять какие CDS из таблицы локальных особенностей генома находятся рядом c находкой. Сначала отберём из таблицы локальных особенностей строки и столбцы, которые соответствуют CDS в той же геномной последовательности, что и находка.

grep 'NC_001318' genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv

Команда для поиска CDS соседних или перекрывающихся с находкой:

echo -e '195678\t197693\t+\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv

Ссылка на neighbors.tsv

В файле neighbors.tsv была найдена CDS, c координатами 195693-197696, белок для этого CDS - guanosine-3',5'-bis(diphosphate) 3'-pyrophosphohydrolase (WP_002657610.1).

6. Поиск по аннотациям кодирующих участков

Теперь проведём поиск по аннотациям кодирующих участков в геноме по EC-коду 2.1.1.113 m4C (находка гомолог для m4C).

elink -db nuccore -id 'NC_001318.1' -target protein | efilter -query '2.1.1.113' | efetch -format 'acc' | less

В результате ничего не было найдено.