← назад

Практикум 9. EMBOSS, Entrez Direct, NCBI Datasets

Этап 1. Получение AC геномной сборки.

В прошллом семестре в практикуме 8 использовался протеом Microbacterium sediminis YLB-01 - UP000093355. Файл сохранилася с прошлого семестра.

На сайте протеома можно найти код доступа геномной сборки - GCA_001689915.1.

Данному протеому соответствует код доступа геномной сборки GCF_001689915.1. На сайте NCBI мы можем узнать, что есть версия сборки в RefSeq - GCF_001689915.1.

Этап 2. Скачивание последовательности генома и таблицы локальных особенностей.

Для того чтобы скачать я использовала команды:

datasets download genome accession GCF_001689915.1 --include gff3,genome

unzip ncbi_dataset.zip

Этап 3. Поиск и трансляция открытых рамок считывания.

Microbacterium sediminis использует 11 таблицу генетического кода. Это было полученно с помощью команды:

efetch -db 'taxonomy' -id '904291' -format 'xml' | grep 'GCId'

Теперь получим открытые рамки считывания:

getorf ncbi_dataset/data/GCF_001689915.1/GCF_001689915.1_ASM168991v1_genomic.fna -outseq orfs.fasta -table 11 -minsize 150 -find 0

Проверим, что все рамки считывания не короче 50 а.о.:

infoseq orfs.fasta -only -length | sort -n

И, наконец, создадим белковую базу для blastp:

makeblastdb -in orfs.fasta -out proteome -dbtype prot

Этап 4. Получение последовательностей гомологичных метилтрансфераз.

Как и указано в задании для дальнейшего поиска ДНК-метилтрансфераз будут использованны последовательности P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens). Подобный способ исспользуется из-за того, что метилтрансферазы имеют гомологичные каталитические домены, но сами последовательности могут находится очень далеко друг от друга.

Последовательности берутся из базы данных Swiss-Prot с помощью команд:

echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > sws.txt

seqret @sws.txt query.fasta

Этап 5. Поиск по сходству последовательностей.

Поиск с помощью blastp:

blastp -task blastp -query query.fasta -db proteome -out blastp_DNAMT.out

Результат: blastp_DNAMT.out

Было обнаружено 3 результата для P0AED9 m5C-МТазы с весами 29.6, 28.1 и 27.3, а так же два результата для P23941 m4C-МТазы с весами 42.4 и 29.6. Соответственно лучший результат - NZ_KV744782.1_1905 с весом 42.4, координатами [281353 - 280235] (REVERSE SENSE) который является гомологом к m4C-МТазе из Bacillus amyloliquefaciens.

С помощью следующего конвейера был создан файл CDS.tsv, который содержит столбцы 4, 5, 7 и 9 из части таблицы локальных особеннотей генома, соответствующей геномной последовательности NZ_KV744782.1.

grep 'NZ_KV744782.1' ncbi_dataset/data/GCF_001689915.1/genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv

Далее используя конвейер были отобраны ближайшие CDS:

echo -e '280235\t281353\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

Результат: neighbors.tsv

Координаты не совпадают польностью, но есть CDS(280232-281116) почти полностью совпадающая с ORF(280235-281353), и эта CDS соответствует DNA-methyltransferase, как следует из аннотации, а значит это гомолог.

Этап 6. Поиск по аннотациям кодирующих участков.

Теперь проверим можно ли обнаружить данный CDS через поиска по аннотации кодирующих участков в геноме.

elink -target protein -db nuccore -id NZ_KV744782.1 | efilter -query '2.1.1.113' | efetch -format 'fasta'

К сожалению, ничего небыло обнаружено.