Практикум 9. EMBOSS, Entrez Direct, NCBI Datasets

Этап 1: получение AC геномной сборки

В прошлом семестре был исследован протеом UP000000554 археи Halobacterium salinarum .

Для получения TaxID организма которому пренадлежит протеом была введена следующая команда:

grep '^OX' proteom_hs.swiss | head -1 | cut -f 2 -d '=' | cut -f 1 -d ';' (выдача 64091 )

Для того чтобы убедиться что для всех белков значения TaxID совпадают использовалась команда:

grep '^OX' proteom_hs.swiss | tr '{' '\n' | grep '=' | tr '=' '\n' | grep ';' | sort | uniq -c

Была получена таблица с информацией о существующих сборках для археи:

datasets summary genome taxon 64091 --as-json-lines | dataformat tsv genome > assembly.tsv

Для моего организма существует только одна сборка в двух версиях: GenBank и RefSeq. Была выбрана версия RefSeq с AC GCF_000006805.1

cut -f1 assembly.tsv

Этап 2: скачивание последовательности генома и таблицы локальных особенностей

Используя полученный ранее AC были скачаны последовательность генома таблица локальных особенностей (в формате gff3)

datasets download genome accession GCF_000006805.1 --include gff3,genome

Для разархивирования скачанных файлов использовалась команда:

unzip ncbi_dataset.zip

Этап 3: поиск и трансляция открытых рамок считывания

Перед трансляцией рамок считывания необходимо было определить какую таблицу генетического кода использует данная архея. Для поиска использовалась команда:

efetch -db 'taxonomy' -id '64091' -format 'xml' > taxonomy.xml

Данный организм использует для трансяции своей генетической информации таблицу №11

grep 'GCId' taxonomy.xml

Для получения всех открытых рамок считывания и их трансляции была использована следующая команда (параметр -minsize 150 отсекает нуклеотидные последовательности при трансляции которых продукт будет короче 50 аминокислот)

getorf ncbi_dataset/data/GCF_000006805.1/GCF_000006805.1_ASM680v1_genomic.fna translation_50ak.fasta -minsize 150 -table 11 -filter

Было проверено, что найденные аминокислотные последовательности имеют длину не меньше 50 ак

ginfoseq translation_50ak.fasta -only -length | sort -n | head

На основе полученных рамок считывания была создана белковая база данных (ORFs)

makeblastdb -in translation_50ak.fasta -out ORFs -dbtype 'prot'

Этап 4: получение последовательностей гомологичных метилтрансфераз

Метилтрансферазы прокариот вероятно содержат гомологичные каталитические домены. Цель данного задания -- попытаться найти метилтрансферазу в исследуемом организме, имеющую сходство с одной из следующих метилтрансфераз: P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens). По кодам доступа (swiss-prot),сохраненным в файл MTas.txt, последовательности были скачаны единым конвеером:

echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > MTas.txt

seqret @MTas.txt query_MTases.fasta

Этап 5: поиск по сходству последовательностей

По созданной базе данных (ORFs) и последоавтельностей query_MTases.fasta был осуществлен поиск рамки, имеющей гомологию с метилтрансферазами.

blastp -query query_MTases.fasta -db ORFs -out hs_MTases_blastp.out -outfmt 7

В полученной таблице наилучшим весом (44.3) обладала находка NC_002607.1_6095, имеющая гомологию с P23941 (m4C-МТаза, Bacillus amyloliquefaciens). Координаты в геноме [1150439 - 1151494]

grep 'NC_002607.1_6095' translation_50ak.fasta

Для поиска близких участков для найденной последовательности был создан вспомогательный файл CDS_NC_002607.tsv, содержащий CDS из той же последовательности что и находка.

grep 'NC_002607.1' ncbi_dataset/data/GCF_000006805.1/genomic.gff | grep 'CDS' | cut -f4,5,7,9> CDS_NC_002607.tsv

Для поиска близких по координатам последовательностей была использована следующая команда:

echo -e '1150439\t1151494\t-\tMY-ORF' | cat - CDS_NC_002607.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

В файле neighbors.tsv была найдена последовательность с координатами [1150451-1151497], которые почти полностью совпали с координатами находки NC_002607.1_6095. По описанию данной последовательности было выяснено, что продуктом является сайт-специфичная ДНК-метилтрансфераза. Таким образом был найден гомолог m4C Метилтрансферазы Bacillus amyloliquefaciens у археи Halobacterium salinarum .

Этап 6: поиск по аннотациям кодирующих участков

В завершении практикума была совершена проверка: действительно ли была найдена метилтрансфераза. Был проведен поиск m4C метилтрансферазы (EC код 2.1.1.113) по аннотации генома

elink -db nuccore -id 'NC_002607.1' -target protein | efilter -query '2.1.1.113' | efetch -format 'fasta'

Находок не было. Так же были проверены 2 других метилтрансферазы 2.1.1.37 (m5C) и 2.1.1.72 (m6A). Тоже ничего не было найдено. Возможно такие результаты связаны с тем, что данный организм архея и набор метилтрансфераз у него отличается от бактериального, по которому проводился поиск.