Практикум 9. EMBOSS, Entrez Direct, NCBI Datasets
Этап 1. Получение AC геномной сборки.
В прошллом семестре в практикуме 8 использовался протеом Microbacterium sediminis YLB-01 - UP000093355. Файл сохранилася с прошлого семестра.
На сайте протеома можно найти код доступа геномной сборки - GCA_001689915.1.
Данному протеому соответствует код доступа геномной сборки GCF_001689915.1. На сайте NCBI мы можем узнать, что есть версия сборки в RefSeq - GCF_001689915.1.
Этап 2. Скачивание последовательности генома и таблицы локальных особенностей.
Для того чтобы скачать я использовала команды:
datasets download genome accession GCF_001689915.1 --include gff3,genome
unzip ncbi_dataset.zip
Этап 3. Поиск и трансляция открытых рамок считывания.
Microbacterium sediminis использует 11 таблицу генетического кода. Это было полученно с помощью команды:
efetch -db 'taxonomy' -id '904291' -format 'xml' | grep 'GCId'
Теперь получим открытые рамки считывания:
getorf ncbi_dataset/data/GCF_001689915.1/GCF_001689915.1_ASM168991v1_genomic.fna -outseq orfs.fasta -table 11 -minsize 150 -find 0
Проверим, что все рамки считывания не короче 50 а.о.:
infoseq orfs.fasta -only -length | sort -n
И, наконец, создадим белковую базу для blastp:
makeblastdb -in orfs.fasta -out proteome -dbtype prot
Этап 4. Получение последовательностей гомологичных метилтрансфераз.
Как и указано в задании для дальнейшего поиска ДНК-метилтрансфераз будут использованны последовательности P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens). Подобный способ исспользуется из-за того, что метилтрансферазы имеют гомологичные каталитические домены, но сами последовательности могут находится очень далеко друг от друга.
Последовательности берутся из базы данных Swiss-Prot с помощью команд:
echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > sws.txt
seqret @sws.txt query.fasta
Этап 5. Поиск по сходству последовательностей.
Поиск с помощью blastp:
blastp -task blastp -query query.fasta -db proteome -out blastp_DNAMT.out
Результат: blastp_DNAMT.out
Было обнаружено 3 результата для P0AED9 m5C-МТазы с весами 29.6, 28.1 и 27.3, а так же два результата для P23941
m4C-МТазы с весами 42.4 и 29.6. Соответственно лучший результат - NZ_KV744782.1_1905 с весом 42.4, координатами
[281353 - 280235] (REVERSE SENSE) который является гомологом к m4C-МТазе из Bacillus amyloliquefaciens. С помощью следующего конвейера был создан файл CDS.tsv, который содержит столбцы 4, 5, 7 и 9 из части таблицы локальных особеннотей генома, соответствующей
геномной последовательности NZ_KV744782.1. grep 'NZ_KV744782.1' ncbi_dataset/data/GCF_001689915.1/genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv Далее используя конвейер были отобраны ближайшие CDS: echo -e '280235\t281353\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv Результат: neighbors.tsv Координаты не совпадают польностью, но есть CDS(280232-281116) почти полностью совпадающая с ORF(280235-281353), и эта CDS соответствует DNA-methyltransferase,
как следует из аннотации, а значит это гомолог.
Этап 6. Поиск по аннотациям кодирующих участков.
Теперь проверим можно ли обнаружить данный CDS через поиска по аннотации кодирующих участков в геноме.
elink -target protein -db nuccore -id NZ_KV744782.1 | efilter -query '2.1.1.113' | efetch -format 'fasta'
К сожалению, ничего небыло обнаружено.