Практикум 9. EMBOSS, Entrez Direct, NCBI Datasets
Получение AC геномной сборки.
В прошллом семестре в практикуме 8 я сравнивала с контролем протеом Microbacterium sediminis YLB-01 - UP000093355. Файл сохранился с прошлого семестра. Чтобы получить АС геномной сборки я использовала конвейер:
zgrep 'NCBI_TaxID' ../../term2/pr8/UP000093355.swiss.gz | cut -f4 -d ' ' | sort -u
Выдача: NCBI_TaxID=904291
Далее я получила список сборок соответствующих таксону.
datasets summary genome taxon 904291 --as-json-lines | dataformat tsv genome --fields 'accession,organism-name,assminfo-name,organism-infraspecific-strain'
Assembly Accession | Organism Name | Assembly Name | Organism Infraspecific Names Strain |
---|---|---|---|
GCF_004564075.1 GCF_001689915.1 GCF_002741995.1 GCA_001689915.1 GCA_002741995.1 GCA_004564075.1 |
Microbacterium sediminis Microbacterium sediminis Microbacterium sediminis Microbacterium sediminis Microbacterium sediminis Microbacterium sediminis |
ASM456407v1 ASM168991v1 ASM274199v1 ASM168991v1 ASM274199v1 ASM456407v1 |
YLB-01 YLB-01 YLB-01 YLB-01 YLB-01 YLB-01 |
Данному протеому соответствует GCF_001689915.1.
Скачивание последовательности генома и таблицы локальных особенностей.
Для того чтобы скачать я использовала команды:
datasets download genome accession GCF_001689915.1 --include gff3,genome
unzip ncbi_dataset.zip
Поиск и трансляция открытых рамок считывания.
Microbacterium sediminis использует 11 таблицу генетического кода. Это было полученно с помощью команды:
efetch -db 'taxonomy' -id '904291' -format 'xml' | grep 'GCId'
Теперь получим открытые рамки считывания:
getorf ncbi_dataset/data/GCF_001689915.1/GCF_001689915.1_ASM168991v1_genomic.fna -outseq orfs.fasta -table 11 -minsize 150 -find 0
Проверим, что все рамки считывания не короче 50 а.о.:
infoseq orfs.fasta -only -length | sort -n
И, наконец, создадим белковую базу для blastp:
makeblastdb -in orfs.fasta -out ORFs -dbtype prot
Получение последовательностей гомологичных метилтрансфераз.
Как и указано в задании для дальнейшего поиска ДНК-метилтрансфераз будут использованны последовательности P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens). Подобный способ исспользуется из-за того, что метилтрансферазы имеют гомологичные каталитические домены, но сами последовательности могут находится очень далеко друг от друга.
Последовательности берутся из базы данных Swiss-Prot с помощью команд:
echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > dnamt.txt
seqret @dnamt.txt DNAMT.fasta
Поиск по сходству последовательностей.
Поиск с помощью blastp:
blastp -task blastp -query DNAMT.fasta -db ORFs -out blastp_DNAMT.out
Результат: blastp_DNAMT.out
Было обнаружено 3 результата для P0AED9 m5C-МТазы с весами 29.6, 28.1 и 27.3, а так же два результата для P23941
m4C-МТазы с весами 42.4 и 29.6. Соответственно лучший результат - NZ_KV744782.1_1905 с весом 42.4, координатами
[281353 - 280235] (REVERSE SENSE) который является гомологом к m4C-МТазе из Bacillus amyloliquefaciens. С помощью следующего конвейера был создан файл CDS.tsv, который содержит столбцы 4,5,7 и 9 из части таблицы локальных особеннотей генома, соответствующей
геномной последовательности NZ_KV744782.1. grep 'NZ_KV744782.1' ncbi_dataset/data/GCF_001689915.1/genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv Далее используя конвейер были отобраны ближайшие CDS: echo -e '280235\t281353\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv Результат: neighbors.tsv Координаты не совпадают польностью, но есть CDS(280232-281116) почти полностью совпадающая с ORF(280235-281353), и эта CDS соответствует DNA-methyltransferase,
как следует из аннотации, а значит это гомолог.
Поиск по аннотациям кодирующих участков.
Теперь проверим можно ли обнаружить данный CDS через поиска по аннотации кодирующих участков в геноме.
elink -target protein -db nuccore -id NZ_KV744782.1 | efilter -query '2.1.1.113' | efetch -format 'fasta'
К сожалению, ничего небыло обнаружено.