Практикум 9

Получение AC геномной сборки и TaxID организма

Proteome ID: UP000001868

Код доступа геномной сборки GenBank: GCA_000017265.1

Код доступа геномной сборки RefSeq: GCF_000017265.1

TaxID бактерии: 450851

Далее работа будет продолжаться с геномной сборкой RefSeq

Скачивание последовательности генома и таблицы локальных особенностей

Была скачана последовательность и feature table с помощью команды: datasets download genome accession GCF_000017265.1 --include genome,gff3

Параметр --include указывает на то, какие файлы необходимо скачать

genome - последовательность генома с таблицей локальных особенностей

gff3 - формат файла

После загрузки файл был распакован с помощью команды: unzip ncbi_dataset.zip

Поиск и трансляция открытых рамок считывания

Сначала определим генетический код организма: efetch -db 'taxonomy' -id '450851' -format 'xml'

efetch - извлекает записи из указанных баз данных в виде отдельных файлов

-db - указываем базу данных

-id - указываем TaxID

-format - определяем формат вывода данных

Номер генетического кода: 11. Это распространённая таблица для бактерий и архей.

Поиск открытых рамок считывания и их трансляций: getorf -sequence ncbi_dataset/data/GCF_000017265.1/GCF_000017265.1_ASM1726v1_genomic.fna -outseq ORF.fasta -table 11 -minsize 150 -find

-sequence - указываем файл на вход с последовательностью. Здесь это файл с геномом бактерии, полученный ранее

-outseq - имя выходного файла

-find 0 - ищем рамки между стоп-кодонами

-minsize 150 - здесь указывается минимальное значение количества нуклеотидов, принимаемое на вход как открытую рамку считывания

-table 11 - указываем номер генетического кода

Теперь надо проверить, что аминокислот действительно минимальное количество: infoseq ORF.fasta -filter -only -length | sort -n -u | head

-only -length - выводим только длины последовательностей

sort -n - сортирует числовые значения по убыванию

-u оставляет только уникальные значения

makeblastdb -in ORF.fasta -dbtype prot -out proteome

makeblastdb - принимает файл с последовательностями в fasta-формате (параметр -in) и создаёт локальную базу данных.

-dbtype - указываем на создание белковой базы данных

-out - названия выходных файлов для белковой базы

Получение последовательностей гомологичных метилтрансфераз

Все известные ДНК-метилтрансферазы прокариот, по всей видимости, содержат гомологичные каталитические домены. Однако они могут быть насколько далеки друг от друга, что сходство последовательностей стандартными средствами обнаружить не удается. Для поиска ДНК-метилтрансфераз использовался конвейер:

echo 'sw:{P0AED9,P0AEE8,P23941}' | tr ' ' '\n' | seqret @stdin -filter query.fasta

Команда tr заменяет пробелы на перенос строки. Seqret читает входные данные из STDIN (@stdin) и записывает последовательности в файл query.fasta.

Поиск по сходству последовательностей

С помощью blastp мы сделали локальное выравнивание полученных в пункте выше метилтрансфераз. При этом, blastp будет искать гомологов в ранее сформированной базе белков. Для этого была введена команда:

blastp -query query.fasta -db proteome -out result -outfmt 7

-query - пишем имя нужного файла

-db - указываем базу данных

-outfmt - указываем формат выдачи (в данном случае это таблица)

-out - пишем имя выходного файла

Самая лучшая по весу находка: NC_011144.1_2812 (вес: 92.0)

Координаты находки: [611937 - 612104], это наиболее верояный гомолог m4C-МТазы B. amyloliquefaciens

При этом, для поиска координат рамки, соответствующей находке, использовалась команда:

grep '^>NC_011144.1_2812' ORF.fasta

Теперь надо определить, какие CDS из таблицы локальных особенностей генома находятся рядом. Для этого сначала отбираем нужные строки и столбцы из таблицы локальных особенностей и записываем их в файл CDS.tsv. Строки берём те, которые соответствуют CDS в той же геномной последовательности, что и наша находка. Для ээтого выбираем столбцы с координатами (4 и 5), цепью (7) и дополнительной информацией (9). Итоговая команда выглядит так:

cat ncbi_dataset/data/GCF_000017265.1/genomic.gff | grep 'NC_011144.1' | cut -f3-5,7,9 | grep '^CDS' | cut -f2-5 > CDS.tsv

Файл с выдачей

Чтобы найти CDS с координатами, близкими к находке, мы использовали команду:

echo -e '611937\t612104\t-\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv

Файл с выдачей

Поиск по аннотациям кодирующих участков

Использовалась команда: elink -db nuccore -id 'NC_011144.1' -target protein | efilter -query '[ECNO]' | efetch -format 'acc'

elink - можно получить записи по ссылкам из других записей

-db - база данных, в данном случае нуклеотидная: nuccore)

-target - если ищем ссылки на связанные записи, то тут пишем другую базу данных, в которой эти ссылки содержатся

efetch -format 'acc' - выводим только accession-номера найденных белков

При этом, число находок оказалось равным нулю. Получается, найти CDS по аннотации кодирующих участков было бы невозможно