Proteome ID: UP000001868
Код доступа геномной сборки GenBank: GCA_000017265.1
Код доступа геномной сборки RefSeq: GCF_000017265.1
TaxID бактерии: 450851
Далее работа будет продолжаться с геномной сборкой RefSeq
Была скачана последовательность и feature table с помощью команды: datasets download genome accession GCF_000017265.1 --include genome,gff3
Параметр --include указывает на то, какие файлы необходимо скачать
genome - последовательность генома с таблицей локальных особенностей
gff3 - формат файла
После загрузки файл был распакован с помощью команды: unzip ncbi_dataset.zip
Сначала определим генетический код организма: efetch -db 'taxonomy' -id '450851' -format 'xml'
efetch - извлекает записи из указанных баз данных в виде отдельных файлов
-db - указываем базу данных
-id - указываем TaxID
-format - определяем формат вывода данных
Номер генетического кода: 11. Это распространённая таблица для бактерий и архей.
Поиск открытых рамок считывания и их трансляций: getorf -sequence ncbi_dataset/data/GCF_000017265.1/GCF_000017265.1_ASM1726v1_genomic.fna -outseq ORF.fasta -table 11 -minsize 150 -find
-sequence - указываем файл на вход с последовательностью. Здесь это файл с геномом бактерии, полученный ранее
-outseq - имя выходного файла
-find 0 - ищем рамки между стоп-кодонами
-minsize 150 - здесь указывается минимальное значение количества нуклеотидов, принимаемое на вход как открытую рамку считывания
-table 11 - указываем номер генетического кода
Теперь надо проверить, что аминокислот действительно минимальное количество: infoseq ORF.fasta -filter -only -length | sort -n -u | head
-only -length - выводим только длины последовательностей
sort -n - сортирует числовые значения по убыванию
-u оставляет только уникальные значения
makeblastdb -in ORF.fasta -dbtype prot -out proteome
makeblastdb - принимает файл с последовательностями в fasta-формате (параметр -in) и создаёт локальную базу данных.
-dbtype - указываем на создание белковой базы данных
-out - названия выходных файлов для белковой базы
Все известные ДНК-метилтрансферазы прокариот, по всей видимости, содержат гомологичные каталитические домены. Однако они могут быть насколько далеки друг от друга, что сходство последовательностей стандартными средствами обнаружить не удается. Для поиска ДНК-метилтрансфераз использовался конвейер:
echo 'sw:{P0AED9,P0AEE8,P23941}' | tr ' ' '\n' | seqret @stdin -filter query.fasta
Команда tr заменяет пробелы на перенос строки. Seqret читает входные данные из STDIN (@stdin) и записывает последовательности в файл query.fasta.
С помощью blastp мы сделали локальное выравнивание полученных в пункте выше метилтрансфераз. При этом, blastp будет искать гомологов в ранее сформированной базе белков. Для этого была введена команда:
blastp -query query.fasta -db proteome -out result -outfmt 7
-query - пишем имя нужного файла
-db - указываем базу данных
-outfmt - указываем формат выдачи (в данном случае это таблица)
-out - пишем имя выходного файла
Самая лучшая по весу находка: NC_011144.1_2812 (вес: 92.0)
Координаты находки: [611937 - 612104], это наиболее верояный гомолог m4C-МТазы B. amyloliquefaciens
При этом, для поиска координат рамки, соответствующей находке, использовалась команда:
grep '^>NC_011144.1_2812' ORF.fasta
Теперь надо определить, какие CDS из таблицы локальных особенностей генома находятся рядом. Для этого сначала отбираем нужные строки и столбцы из таблицы локальных особенностей и записываем их в файл CDS.tsv. Строки берём те, которые соответствуют CDS в той же геномной последовательности, что и наша находка. Для ээтого выбираем столбцы с координатами (4 и 5), цепью (7) и дополнительной информацией (9). Итоговая команда выглядит так:
cat ncbi_dataset/data/GCF_000017265.1/genomic.gff | grep 'NC_011144.1' | cut -f3-5,7,9 | grep '^CDS' | cut -f2-5 > CDS.tsv
Чтобы найти CDS с координатами, близкими к находке, мы использовали команду:
echo -e '611937\t612104\t-\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv
Использовалась команда: elink -db nuccore -id 'NC_011144.1' -target protein | efilter -query '[ECNO]' | efetch -format 'acc'
elink - можно получить записи по ссылкам из других записей
-db - база данных, в данном случае нуклеотидная: nuccore)
-target - если ищем ссылки на связанные записи, то тут пишем другую базу данных, в которой эти ссылки содержатся
efetch -format 'acc' - выводим только accession-номера найденных белков
При этом, число находок оказалось равным нулю. Получается, найти CDS по аннотации кодирующих участков было бы невозможно