Практикум 9. EMBOSS, Entrez Direct, NCBI Datasets

Целью данного практикума является осовение средств EMBOSS, EDirect, NCBI Datasets CLI и blast+. С их помощью будет проведен поиск одной из ДНК-метилтрансфераз в геноме Rickettsia asiatica по последовательности и аннотации. В прошлом семестре я работала с протомом Rickettsia asiatica (UP000321183), в данном практикуме работа будет проведена с геномом Rickettsia asiatica (на основе которого был получен протеом)

Задание 1. Получение AC геномной сборки

Чтобы получить AC геномной сборки из протеома Rickettsia asiatica сначала с помощью следующей команды был получен TaxID организма:

grep "^OX" UP000321183.swiss|tr ' ' '\n'|grep "^NCBI_TaxID="|sort -u

Выдача программы: NCBI_TaxID=238800

Затем, зная TaxID с помощью следующей команды был найден AC сборки. Выдача программы datasets в формате JSON Lines была переведена в формат tsv c помощью команды dataformat, затем в таблице был найден AC.

datasets summary genome taxon '238800' --as-json-lines | dataformat tsv genome | less

AC: GCF_007989425.1

Задание 2. Скачивание последовательности генома и таблицы локальных особенностей

C помощью следующей команды был скачен геном и таблица локальных особенностей (опция include gff3 добавляет таблицу локальных особенностей в архив):

datasets download genome accession GCF_007989425.1 --include gff3

Затем архив был распакован:

unzip ncbi_dataset.zip

Задание 3. Поиск и трансляция открытых рамок считывания

Сначала необходимо было определить какой вариант генетического кода использует Rickettsia asiatica. Это было сделано так:

efetch -db 'taxonomy' -id '238800' -format 'xml'|less

В выдаче можно было найти строки:'GeneticCode' 'GCId'11'/GCId'. Rickettsia asiatica использует таблицу генетического кода №11.

Затем с поомщью команды были найдены открытые рамки считывания (-table 11 - задает таблицу №11 для трансляции; -minsize 150 - минимальный размер открытых рамок)

getorf -sequence 'GCF_007989425.1_ASM798942v1_genomic.fna' -outseq 'pup' -table 11 -minsize 150

Была создана белковая база для blastp:

makeblastdb -in 'pup' -dbtype prot -out 'ORFs'

Проверка того, что в трансляциях нет элементов короче 50 аминокислотных остатков была выполнена данной командой:

infoseq 'pup' -only -length|sort -n|head -2|less

Задание 4. Получение последовательностей гомологичных метилтрансфераз

Из Swiss-Prot были скачены 3 последовательности разных ДНК-метилтрансфераз, которые в следующем запросе будут выполнять роль запроса в программе blastp. Это было выполнено конвейером, который создает 1 файл (query_MTases.fasta) с тремя последовательностями, промежуточные файлы не создаются:

echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941'|seqret -filter 'list::stdin' -outseq 'query_MTases.fasta'

ДНК-метилтрансферазы, последовательности которых были скачены : P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).

Задание 5. Поиск по сходству последовательностей

Поиск по сходству последоватаельностей проводился с помощью blastp, была использована данная команда. Выдача - файл (представяляет из себя таблицу с находками)

blastp -query 'query_MTases.fasta' -db 'ORFs' -outfmt 7 -out 'ups'

С DCM_ECOLI было найдено 7 находок, с DMA_ECOLI - 10, c MTB1_BACAM - 9.

Самая лучшая находка была с m6A-МТаза из E.coli,её вес - 97.8. Название рамки - NZ_AP019563.1_949, ее координаты в геноме: 432351 - 433157. У этой находки хороший показатель E-value и неплохой вес, поэтому думаю, что этот участок может быть действительно гомологичен.

Затем, используя координаты находки, появилась возможность отобрать CDS, распологающиеся рядом (из таблицы локальных особенностей).

Сначала из таблицы локальных особенностей были выбраны строки с CDS интересующей нас геномной последовтаельности, а затем были отобраны столбцы с координатами, цепью(+ или -) и краткой информации о cds. Выдача направлена в файл CDS.tsv.

grep 'CDS' genomic.gff| grep '^NZ_AP019563.1'|cut -f 4,5,7,9>CDS.tsv

После были выбраны близлежащие CDS(6 соседних) с помощью команды:

echo -e '432351\t433157\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

файл с выдачей конвейера

Была найдена 1 CDS (это аденинспецифичная ДНК-метилтрансфераза, ID=cds-WP_147142020.1), кординаты которой пересекаются(432360-433160) с найденной ORF, но они полностью не накладываются.

Задание 6. Поиск по аннотациям кодирующих участков

В этом пункте была осуществлена проверка возможности нахождения CDS соответствующего находке через поиск по аннотации кодирующих участков в геноме.

Для этого был выполнен конвейер:

elink -target 'protein' -db 'nuccore' -id 'NZ_AP019563.1'|efilter -query '2.1.1.72'|efetch -format 'fasta'|less

В итоге нашелся 1 белок(WP_147142020.1) и он совпадает с найденным с предыдущем пункте.

Все промежуточные файлы находятся в директории:/home/students/y23/zzzem1103/term3/pr9/ncbi_dataset/data/GCF_007989425.1