Практикум 9

Этап 1: получение AC геномной сборки и TaxID организма

Во втором семестре я исследовала протеом Vibrio cholerae. Теперь буду исследовать соответствующий этой сборке геном.

Данные по моей сборке протеома Vibrio Cholerae:

ID UniProt Proteomes: UP000322474,ссылка
ID сборки GenBank: GCA_008369605.1
ID сборки RefSeq: GCF_008369605.1,ссылка на страницу NCBI Datasets Genome

Этап 2: скачивание последовательности генома и таблицы локальных особенностей

Для скачивания последовательности генома и таблицы локальных особенностей использовалась команда:

datasets download genome accession GCF_008369605.1 --include genome,gff3

После распаковки полученного архива была получена папка, внутри которой лежат файлы ncbi_dataset/data/GCF_008369605.1/GCF_008369605.1_ASM836960v1_genomic.fna с последовательностью и ncbi_dataset/data/GCF_008369605.1/genomic.gff с таблицой локальных особенностей.

Этап 3: поиск и трансляция открытых рамок считывания

Для начала удостоверимся, какую таблицу генетического кода использует моя бактерия, посмотрим данные про ее таксон.

efetch -db 'taxonomy' -id '666' -mode 'xml' | less

Эта команда показывает запись о таксоне в Datasets Taxonomy в формате xml. В поле GeneticCode указано 11, то есть классческая таблица.

Далее получим рамки считывания с помощью следующей команды. При этом положим, что длина полученных ORF должна быть больше 150 нуклеотидов, чтобы избавиться от маловероятных вариантов.

getorf -table 11 -minsize 150 'ncbi_dataset/data/GCF_008369605.1/GCF_008369605.1_ASM836960v1_genomic.fna' -outseq 'ORFs.fasta'

Проверим, что длины полученных белков больше 50 аминокислот, с помощью команды:

infoseq -filter -only -length ORFs.fasta | sort -nu | less

Все верно, самая маленькая длина белка - 50.

Теперь создадим локальную базу данных этих белков, чтобы по ней в дальнейшем запускать BLAST. Для этого используем следующую команду:

makeblastdb -dbtype prot -in ORFs.fasta -out proteome

Этап 4: получение последовательностей гомологичных метилтрансфераз

Получим белковые последовательности некоторых метилтрансфераз.

echo 'sw:P0AED9 sw:P0AEE8 sw:P23941' | tr ' ' '\n' | seqret @stdin -filter -out query.fasta

Этап 5: поиск по сходству последовательностей

Проведем поиск похожих на наши метилтрансферазы белков по базе данных proteome, созданной нами ранее, с помощью blastp.

blastp -db proteome -query query.fasta -outfmt 7 -out blast.out

Табличная выдача BLAST

Некоторая информация о лучшей находке:

Название рамки: NZ_CP043554.1_830
Координаты в геноме: 238441 - 239271 (получены из файла ORFs.fasta с пом. grep по названию рамки)
Метилтрансфераза: m6A
Вес находки: 2.23e-127

По координатам рамки мы, используя файл с аннотацией, можем найти лежащие рядом CDS. Для этого сначала выберем нужные столбцы в файле с аннотацией (4, 5 - координаты, 7 - цепь, 9 - доп. информация), а затем проведем поиск.

cut -f 4,5,7,9 ncbi_dataset/data/GCF_008369605.1/genomic.gff | grep 'ID=cds' > CDS.tsv

echo -e '238441\t239271\t+\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv

Выдача команды: файл с близкими CDS

Среди прочего обнаружена CDS, первая координата которой совпадает с найденой (238441), а последняя - на 3 больше (239274). По аннотации этой CDS (WP_000744680.1) видим, что белок - действительно метилтрансфераза. Таким образом, мы смогли найти CDS, соответствующий метилтрансферазе.

Этап 6: поиск по аннотациям кодирующих участков

Попробуем найти интересующую CDS с помощью поиска по аннотации. Для этого найдем нашу рамку в nuccore, перейдем в соответствующие ей белковые записи, и из белков отберем только те, в аннотации которых есть указание на наш класс фермента. Затем получим коды доступа для этих белков.

elink -id 'NZ_CP043554.1' -db nuccore -target 'protein' | efilter -query '(2.1.1.72[ECNO])' | efetch -format acc

Найдено 2 белка: WP_000744680.1 и WP_149560509.1. Первый - тот же, что мы нашли в предыдущем пункте, второй - так называемый type I restriction-modification system subunit M.