Целью данного практикума является осовение средств EMBOSS, EDirect, NCBI Datasets CLI и blast+. С их помощью будет проведен поиск одной из ДНК-метилтрансфераз в геноме Rickettsia asiatica по последовательности и аннотации. В прошлом семестре я работала с протомом Rickettsia asiatica (UP000321183), в данном практикуме работа будет проведена с геномом Rickettsia asiatica (на основе которого был получен протеом)
Чтобы получить AC геномной сборки из протеома Rickettsia asiatica сначала с помощью следующей команды был получен TaxID организма:
grep "^OX" UP000321183.swiss|tr ' ' '\n'|grep "^NCBI_TaxID="|sort -u
Выдача программы: NCBI_TaxID=238800
Затем, зная TaxID с помощью следующей команды был найден AC сборки. Выдача программы datasets в формате JSON Lines была переведена в формат tsv c помощью команды dataformat, затем в таблице был найден AC.
datasets summary genome taxon '238800' --as-json-lines | dataformat tsv genome | less
AC: GCF_007989425.1
C помощью следующей команды был скачен геном и таблица локальных особенностей (опция include gff3 добавляет таблицу локальных особенностей в архив):
datasets download genome accession GCF_007989425.1 --include gff3
Затем архив был распакован:
unzip ncbi_dataset.zip
Сначала необходимо было определить какой вариант генетического кода использует Rickettsia asiatica. Это было сделано так:
efetch -db 'taxonomy' -id '238800' -format 'xml'|less
В выдаче можно было найти строки:'GeneticCode' 'GCId'11'/GCId'. Rickettsia asiatica использует таблицу генетического кода №11.
Затем с поомщью команды были найдены открытые рамки считывания (-table 11 - задает таблицу №11 для трансляции; -minsize 150 - минимальный размер открытых рамок)
getorf -sequence 'GCF_007989425.1_ASM798942v1_genomic.fna' -outseq 'pup' -table 11 -minsize 150
Была создана белковая база для blastp:
makeblastdb -in 'pup' -dbtype prot -out 'ORFs'
Проверка того, что в трансляциях нет элементов короче 50 аминокислотных остатков была выполнена данной командой:
infoseq 'pup' -only -length|sort -n|head -2|less
Из Swiss-Prot были скачены 3 последовательности разных ДНК-метилтрансфераз, которые в следующем запросе будут выполнять роль запроса в программе blastp. Это было выполнено конвейером, который создает 1 файл (query_MTases.fasta) с тремя последовательностями, промежуточные файлы не создаются:
echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941'|seqret -filter 'list::stdin' -outseq 'query_MTases.fasta'
ДНК-метилтрансферазы, последовательности которых были скачены : P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).
Поиск по сходству последоватаельностей проводился с помощью blastp, была использована данная команда. Выдача - файл (представяляет из себя таблицу с находками)
blastp -query 'query_MTases.fasta' -db 'ORFs' -outfmt 7 -out 'ups'
С DCM_ECOLI было найдено 7 находок, с DMA_ECOLI - 10, c MTB1_BACAM - 9.
Самая лучшая находка была с m6A-МТаза из E.coli,её вес - 97.8. Название рамки - NZ_AP019563.1_949, ее координаты в геноме: 432351 - 433157. У этой находки хороший показатель E-value и неплохой вес, поэтому думаю, что этот участок может быть действительно гомологичен.
Затем, используя координаты находки, появилась возможность отобрать CDS, распологающиеся рядом (из таблицы локальных особенностей).
Сначала из таблицы локальных особенностей были выбраны строки с CDS интересующей нас геномной последовтаельности, а затем были отобраны столбцы с координатами, цепью(+ или -) и краткой информации о cds. Выдача направлена в файл CDS.tsv.
grep 'CDS' genomic.gff| grep '^NZ_AP019563.1'|cut -f 4,5,7,9>CDS.tsv
После были выбраны близлежащие CDS(6 соседних) с помощью команды:
echo -e '432351\t433157\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv
Была найдена 1 CDS (это аденинспецифичная ДНК-метилтрансфераза, ID=cds-WP_147142020.1), кординаты которой пересекаются(432360-433160) с найденной ORF, но они полностью не накладываются.
В этом пункте была осуществлена проверка возможности нахождения CDS соответствующего находке через поиск по аннотации кодирующих участков в геноме.
Для этого был выполнен конвейер:
elink -target 'protein' -db 'nuccore' -id 'NZ_AP019563.1'|efilter -query '2.1.1.72'|efetch -format 'fasta'|less
В итоге нашелся 1 белок(WP_147142020.1) и он совпадает с найденным с предыдущем пункте.
Все промежуточные файлы находятся в директории:/home/students/y23/zzzem1103/term3/pr9/ncbi_dataset/data/GCF_007989425.1