Практикум 9

Я получил TaxID с помощью следующего конвейера:
 zgrep 'TaxID=' UP000196536.swiss.gz|tr '{=' '\t'|cut -f2|sort -u 
. Выдача:
 1582270 
. Далее я получил список сборок с помощью конвейера:
 datasets summary genome taxon 1582270 --as-json-lines | dataformat tsv genome >> 1582270.tsv 
Скачать выдачу можно по ссылке. В списке присутствует две сборки, я с помощью конвейера ниже выбрал нужную сборку (GCF_002174125.1):
 esearch -db 'assembly' -query 'Acinetobacter populi(#reference)'| efetch -format docsum | xtract -pattern DocumentSummary -e
lement AssemblyAccession,TaxId,Title 
Далее удалось получить загрузить последовательности генома и таблицу локальных особенностей с помощью команды в формате gff3:
 datasets download genome accession GCF_002174125.1 --include gff3 --include genome 
Далее скачанный файл я разархивировал следующей командой:
 unzip ncbi_dataset.zip 
Далее удалось установить, какую таблицу генетического кода мне дальше нужно использовать для моей бактерии с помощью следующей команды:
 efetch -db 'taxonomy' -id '1582270' -format xml >> ap.xml 
В полученном файле с выдачей написано, что бактерия использует 11-ую таблицу. Далее я получил открытые рамки считывания:
 getorf GCF_002174125.1_ASM217412v1_genomic.fna appr.fasta -minsize 150 -table 11 -filter 
Была осуществлена проверка на то, что полученные аминокислотные последовательности не короче 50 аминокислот с помощью команды:
 infoseq -only -length appr.fasta|sort -n|head -n 2 
. Наименьшая последовательность имеет длину 50 аминокислот. Далее я создал базу для blastp:
 makeblastdb -in appr.fasta -out ORFs -dbtype prot 
Потом я создал текстовый файл с кодами доступа метилтрансфераз интереса:
 echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > seqret.txt 
Далее с помощью этого файла удалось найти последовательности заданных в условии метилтрансфераз:
 seqret @seqret.txt query_MTases.fasta 
Далее я воспользовался созданной базой данных и на её основе осуществил blastp:
 blastp -query query_MTases.fasta -db ORFs -out appr_blastp.out -outfmt 7 
Полученную таблицу в формате 7 можно скачать по ссылке . Лучшая находка по весу - NZ_NEXX01000003.1_2105, вес 70.5, координаты в геноме - [205242 - 204289] (REVERSE SENSE). Для получения таблицы с координатами CDS я ввёл команду:
 grep 'CDS' genomic.gff|cut -f4,5,7,9 > CDS.tsv 
Для поиска близких к ней по координатам находок ввёл следующую команду:
 echo -e '204289\t205242\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbours.tsv 
Выдачу можно скачать по ссылке . Вышло, что находка, вероятнее всего, соответствует ДНК-метилтрансферазе m5C. В завершение практикума я попробовал найти CDS в аннотации генома моей бактерии с помощью конвейера из предложенных на сайте команд:
 elink -db nuccore -id 'NZ_NEXX01000003.1' -target protein | efilter -query '2.1.1.37' | efetch -format fasta 
Был обнаружен белок, найденный ранее, а именно ДНК-метилтрансфераза m5C.