EMBOSS, Entrez Direct, NCBI Datasets

В данном практикуме исследуется геном и протеом бактерии Tenacibaculum finnmarkense.
Идентификатор протеома: UP000234556.
Ранее был скачен файл, содержащий информацию о белках её протеома в формате swiss: UP000234556.swiss.gz

1. Получение AC геномной сборки

Команда для получения содержимого поля TaxID для всех белков протеома:

zgrep NCBI_TaxID UP000234556.swiss.gz| cut -f 4 -d ' '| tr -d '[:alpha:]' | tr -d '='| tr -d '_'

Чтобы понять, совпадают ли все значение в этой выдаче была использована команда:

zgrep NCBI_TaxID UP000234556.swiss.gz| cut -f 4 -d ' '| tr -d '[:alpha:]' | tr -d '='| tr -d '_'| sort -u

Выдача: 2781243
Таким образом, TaxID Tenacibaculum finnmarkense – 2781243 (значения для всех белков совпадают).

Далее для получения списка геномных сборок была использована следующая команда:

esearch -db assembly -query "2781243" | esummary| xtract -pattern DocumentSummary -element AssemblyAccession,TaxId,Title|sort -u

Оказалось, что сборок несколько. Чтобы определить, какая из них относится к рассматриваемому протеому, была использована команда, сократившая выдачу до одной сборки:

zgrep 'DR   EMBL' UP000234556.swiss.gz | cut -f 5 -d ' '| tr -d ';'| elink -db nuccore -target assembly| esummary| xtract -pattern DocumentSummary -element AssemblyAccession,TaxId,Title

AC геномной сборки: GCA_900239485.

2. Скачивание последовательности генома и таблицы локальных особенностей

Команда для загрузки последовательности генома и feature table (по уже известному AC сборки):

datasets download genome accession GCA_900239485 --include gff3 --include genome --filename tf_genome.zip

Команда для распаковки архива:

unzip tf_genome.zip

Таким образом, была создана папка ncbi_dataset, содержащая все нужные файлы.

3. Поиск и трансляция открытых рамок считывания

Чтобы узнать, какой вариант генетического кода у Tenacibaculum finnmarkense, была использована команда:

efetch  -db taxonomy -id 2781243 -format xml

В выдаче содержалась строчка <GCId>11<GCId>, следовательно рассматриваемая бактерия использует таблицу №11.

Команда для поиска открытых рамок считывания и их трансляций:

getorf " GCA_900239485.1_TFHFJT_V1_genomic.fna" -minsize 150 -table 11  -filter >tf_orf

GCA_900239485.1_TFHFJT_V1_genomic.fna – файл с геномом Tenacibaculum finnmarkense.
tf_orf – создаваемый файл с искомыми аминокислотными последовательностями.

Чтобы проверить длину полученных последовательностей была использована команда:

infoseq -only -length tf_orf |sort -n -u

Выдача начинается с самой маленькой длины, которая здесь равна 50.
Команда для создания базы данных ORFs по полученным последовательностям трансляций:

makeblastdb -in tf_orf -out ORFs -dbtype prot

4. Получение последовательностей гомологичных метилтрансфераз

Нужные ДНК-метилтрансферазы:
P0AED9 (Dcm, m5C-МТаза, E.coli)
P0AEE8 (Dam, m6A-МТаза, E.coli)
P23941 (m4C-МТаза, Bacillus amyloliquefaciens).

Команда для записи AC этих белков в файл prot.txt:

echo 'sw:P0AED9','sw:P0AEE8','sw:P23941'| tr ',' '\n' > prot.txt

Команда для создания файла с нужными последовательностями:

seqret @prot.txt query_MTases.fasta

5. Поиск по сходству последовательностей

По созданной базе данных ORFs с помощью алгоритма blastp был осуществлен поиск фрагментов белковых последовательностей, схожих с ДНК-метилтрансферазами, последовательности которых содержатся в файле query_MTases.fasta.
Команда:

blastp -query query_MTases.fasta -db ORFs -out tf_blastp.out -outfmt 7

Ссылка на табличную выдачу blastp
Характеристики лучшей по весу находки (обнаружено сходство с ДНК-метилтрансферазой P0AED9, то есть m5C):
Идентификатор: OEND01000001.1_371
координаты в геноме T. finnmarkense: 184990 - 186342
вес находки: 118
Координаты в геноме были найдены с помощью текстовой выдачи blastp; команда:

blastp -query query_MTases.fasta -db ORFs -out tf_blastp.out1

Чтобы определить, какие CDS из таблицы локальных особенностей генома бактерии располагаются рядом с этой находкой, были использованы следующие команды.
Команда для создания файла CDS.tsv, содержащего информацию о CDS, находящихся в той же геномной последовательности, что и интересующая находка:

grep OEND01000001.1 genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsv

Команда для поиска участков, которые по координатам наиболее близки или перекрываются с находкой:

echo -e '184990\t186342\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

Ссылка на файл с найденными соседними CDS.
Получилось, что с найденной открытой рамкой пересекается 1 CDS из таблицы локальных особенностей (хотя координаты не совпадают), она соответствует белку с координатами 185116-186345 и protein_id=SOS53667.1; также указано, что кодируемым белком является Cytosine-specific methyltransferase.

6. Поиск по аннотациям кодирующих участков

Команда для поиска CDS а аннотации генома Tenacibaculum finnmarkense (2.1.1.37 – EC-код ДНК-метилтрансферазы m5C):

elink -target protein -db nuccore -id OEND01000001.1 | efilter -query '2.1.1.37' | efetch -format 'fasta'

Было найдено 2 белка, одним из которых оказалась указанная в предыдущем пункте ДНК-метилтрансфераза (SOS53667.1).