Практикум 9. EMBOSS, Entrez Direct, NCBI Datasets
Этап 1: получение AC геномной сборки
В прошлом семестре был исследован протеом UP000000554 археи Halobacterium salinarum .
Для получения TaxID организма которому пренадлежит протеом была введена следующая команда:
grep '^OX' proteom_hs.swiss | head -1 | cut -f 2 -d '=' | cut -f 1 -d ';' (выдача 64091 )
Для того чтобы убедиться что для всех белков значения TaxID совпадают использовалась команда:
grep '^OX' proteom_hs.swiss | tr '{' '\n' | grep '=' | tr '=' '\n' | grep ';' | sort | uniq -c
Была получена таблица с информацией о существующих сборках для археи:
datasets summary genome taxon 64091 --as-json-lines | dataformat tsv genome > assembly.tsv
Для моего организма существует только одна сборка в двух версиях: GenBank и RefSeq. Была выбрана версия RefSeq с AC GCF_000006805.1
cut -f1 assembly.tsv
Этап 2: скачивание последовательности генома и таблицы локальных особенностей
Используя полученный ранее AC были скачаны последовательность генома таблица локальных особенностей (в формате gff3)
datasets download genome accession GCF_000006805.1 --include gff3,genome
Для разархивирования скачанных файлов использовалась команда:
unzip ncbi_dataset.zip
Этап 3: поиск и трансляция открытых рамок считывания
Перед трансляцией рамок считывания необходимо было определить какую таблицу генетического кода использует данная архея. Для поиска использовалась команда:
efetch -db 'taxonomy' -id '64091' -format 'xml' > taxonomy.xml
Данный организм использует для трансяции своей генетической информации таблицу №11
grep 'GCId' taxonomy.xml
Для получения всех открытых рамок считывания и их трансляции была использована следующая команда (параметр -minsize 150 отсекает нуклеотидные
последовательности при трансляции которых продукт будет короче 50 аминокислот)
getorf ncbi_dataset/data/GCF_000006805.1/GCF_000006805.1_ASM680v1_genomic.fna translation_50ak.fasta -minsize 150 -table 11 -filter
Было проверено, что найденные аминокислотные последовательности имеют длину не меньше 50 ак
ginfoseq translation_50ak.fasta -only -length | sort -n | head
На основе полученных рамок считывания была создана белковая база данных (ORFs)
makeblastdb -in translation_50ak.fasta -out ORFs -dbtype 'prot'
Этап 4: получение последовательностей гомологичных метилтрансфераз
Метилтрансферазы прокариот вероятно содержат гомологичные каталитические домены. Цель данного задания -- попытаться найти
метилтрансферазу в исследуемом организме, имеющую сходство с одной из следующих метилтрансфераз:
P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens). По кодам доступа (swiss-prot),сохраненным
в файл MTas.txt, последовательности были скачаны единым конвеером:
echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > MTas.txt
seqret @MTas.txt query_MTases.fasta
Этап 5: поиск по сходству последовательностей
По созданной базе данных (ORFs) и последоавтельностей query_MTases.fasta был осуществлен поиск рамки, имеющей гомологию с метилтрансферазами.
blastp -query query_MTases.fasta -db ORFs -out hs_MTases_blastp.out -outfmt 7
В полученной таблице наилучшим весом (44.3) обладала находка NC_002607.1_6095, имеющая
гомологию с P23941 (m4C-МТаза, Bacillus amyloliquefaciens).
Координаты в геноме [1150439 - 1151494]
grep 'NC_002607.1_6095' translation_50ak.fasta
Для поиска близких участков для найденной последовательности был создан вспомогательный файл CDS_NC_002607.tsv, содержащий CDS из той же последовательности
что и находка.
grep 'NC_002607.1' ncbi_dataset/data/GCF_000006805.1/genomic.gff | grep 'CDS' | cut -f4,5,7,9> CDS_NC_002607.tsv
Для поиска близких по координатам последовательностей была использована следующая команда:
echo -e '1150439\t1151494\t-\tMY-ORF' | cat - CDS_NC_002607.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv
В файле neighbors.tsv была найдена последовательность с координатами [1150451-1151497], которые почти полностью совпали с координатами
находки NC_002607.1_6095. По описанию данной последовательности было выяснено, что продуктом является сайт-специфичная ДНК-метилтрансфераза.
Таким образом был найден гомолог m4C Метилтрансферазы Bacillus amyloliquefaciens у археи Halobacterium salinarum .
Этап 6: поиск по аннотациям кодирующих участков
В завершении практикума была совершена проверка: действительно ли была найдена метилтрансфераза.
Был проведен поиск m4C метилтрансферазы (EC код 2.1.1.113) по аннотации генома
elink -db nuccore -id 'NC_002607.1' -target protein | efilter -query '2.1.1.113' | efetch -format 'fasta'
Находок не было. Так же были проверены 2 других метилтрансферазы 2.1.1.37 (m5C) и 2.1.1.72 (m6A). Тоже ничего не было найдено.
Возможно такие результаты связаны с тем, что данный организм архея и набор метилтрансфераз у него отличается от бактериального, по которому проводился поиск.