Практикум 9

Получение AC геномной сборки и TaxID организма

В практикуме использовался протеом бактерии Phenylobacterium zucineum (strain HLK1)

Код доступа геномной сборки GenBank: GCA_000017265.1

Код доступа геномной сборки RefSeq: GCF_000017265.1

TaxID бактерии: 450851

Далее работа будет продолжаться с геномной сборкой RefSeq

Скачивание последовательности генома и таблицы локальных особенностей

Была скачана последовательность и feature table с помощью команды: datasets download genome accession GCF_000017265.1 --include genome,gff3

Параметр --include указывает на то, какие файлы необходимо скачать

genome - последовательность генома

gff3 - таблица локальных особенностей

После загрузки файл был распакован с помощью команды: unzip ncbi_dataset.zip

Получается, мы скачали архив с геномной последовательностью и таблицей локальных особенностей в формате gff3

Поиск и трансляция открытых рамок считывания

Сначала определим генетический код организма: efetch -db 'taxonomy' -id '450851' -format 'xml'

efetch - извлекает записи из указанных баз данных в виде отдельных файлов

-db - указываем базу данных

-id - указываем TaxID

-format - определяем формат вывода данных

Номер генетического кода: 11 (согласно полю GeneticCode). Это распространённая таблица для бактерий и архей.

Поиск открытых рамок считывания и их трансляций при помощи команды getorf из пакета EMBOSS: getorf -sequence ncbi_dataset/data/GCF_000017265.1/GCF_000017265.1_ASM1726v1_genomic.fna -outseq ORF.fasta -table 11 -minsize 150 -find

-sequence - указываем файл на вход с последовательностью. Здесь это файл с геномом бактерии, полученный ранее

-outseq - имя выходного файла. Там будут все найденные и оттранслированные открытые рамки считывания в форме аминокислотных последовательностей

-find 0 - ищем рамки только между стоп-кодонами

-minsize 150 - здесь указывается минимальное значение количества нуклеотидов, принимаемое на вход как открытую рамку считывания

-table 11 - указываем номер генетического кода

Теперь надо проверить, что аминокислот действительно минимальное количество: infoseq ORF.fasta -filter -only -length | sort -n -u | head

infoseq - получаем информацию о последовательности в виде таблицы

-only -length - выводим только информацию о длинах последовательностей

sort -n - сортирует числовые значения по убыванию

-u оставляет только уникальные значения

Опция -filter нужна, чтобы в выводе были только числа, иначе выводится ещё и дополнительная информация в текстовом виде

Теперь созадём белковую базу с помощью команды:

makeblastdb -in ORF.fasta -dbtype prot -out proteome

makeblastdb - принимает файл с последовательностями в fasta-формате (параметр -in) и создаёт локальную базу данных.

-dbtype - указываем на создание белковой базы данных

-out - названия выходных файлов для белковой базы

Получение последовательностей гомологичных метилтрансфераз

Для поиска ДНК-метилтрансфераз по сходству последовательностей использовался конвейер:

echo 'sw:P0AED9 sw:P0AEE8 sw:P23941' | tr ' ' '\n' | seqret @stdin -filter query.fasta

Команда tr заменяет пробелы на перенос строки, это надо для работы команды seqret. Seqret читает входные данные из STDIN (@stdin) и записывает последовательности в файл query.fasta.

Здесь опция -filter нужна для поиска последовательностей по данным идентификаторам

Поиск по сходству последовательностей

С помощью blastp мы сделали локальное выравнивание полученных в пункте выше метилтрансфераз. При этом, blastp будет искать гомологов в ранее сформированной базе белков. Для этого была введена команда:

blastp -query query.fasta -db proteome -out result -outfmt 7

-query - пишем имя нужного файла

-db - указываем базу данных

-outfmt - указываем формат выдачи (в данном случае это таблица)

-out - пишем имя выходного файла

Самая лучшая по весу находка: NC_011144.1_2812 (вес: 92.0)

Координаты находки: [611804 - 612961], это наиболее вероятный гомолог m4C-МТазы P. zucineum

При этом, для поиска координат рамки, соответствующей находке, использовалась команда:

grep '^>NC_011144.1_2812' ORF.fasta

Теперь надо определить, какие CDS из таблицы локальных особенностей генома находятся рядом. Для этого сначала отбираем нужные строки и столбцы из таблицы локальных особенностей и записываем их в файл CDS.tsv. Строки берём те, которые соответствуют CDS в той же геномной последовательности, что и наша находка. Для ээтого выбираем столбцы с координатами (4 и 5), цепью (7) и дополнительной информацией (9). Итоговая команда выглядит так:

cat ncbi_dataset/data/GCF_000017265.1/genomic.gff | grep 'NC_011144.1' | cut -f3-5,7,9 | grep '^CDS' | cut -f2-5 > CDS.tsv

Файл с выдачей

сut выбирает нужные столбцы и столбец, который определяет, участок является CDS или псевдогеном. После этого отбирает CDS и убирает первый столбец

Чтобы найти CDS с координатами, близкими к находке, мы использовали команду:

echo -e '611804\t612961\t+\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv

Файл с выдачей

Из файла с выдачей видно, что с найденной открытой рамкой считывания пересекается, но не совпадает, CDS 611885 - 612964 + с id: cds - WP_012521139. Ген, которому соответствует CDS - PHZ_RS03115.

Ген PHZ_RS03115 кодирует сайт-специфичную ДНК-метилтрансферазу бактерии Phenylobacterium zucineum

Поиск по аннотациям кодирующих участков

Использовалась команда: elink -db nuccore -id 'NC_011144.1' -target protein | efilter -query '2.1.1.113[ECNO]' | efetch -format 'acc'

elink - можно получить записи по ссылкам из других записей

-db - база данных, в данном случае нуклеотидная: nuccore

-target - если ищем ссылки на связанные записи, то тут пишем другую базу данных, в которой эти ссылки содержатся

efetch -format 'acc' - выводим только accession-номера найденных белков

efilter осуществляет фильтрацию записей по дополнительным критериям. В -query указали сам запрос. Здесь я указывала EC коды соответствующих ферментов (2.1.1.37 (m5C), 2.1.1.72 (m6A) и 2.1.1.113 (m4C)). Название поля узнала при помощи einfo

При этом, число находок оказалось равным нулю. Получается, найти CDS по аннотации кодирующих участков было бы невозможно