Получение TaxID
grep ^OX UP000296284.swiss | sort | uniq -c
Выдача:
1 OX NCBI_TaxID=2562449
После этого нужно было определить, какие есть геномные сборки у данного организма:
datasets summary genome taxon 2562449 --as-json-lines | dataformat tsv genome. У меня оказалась всего одна сборка, но в разных базах данных. Я выбрал RefSeq
AC сборки: GCF_004684345.1
Скачивание таблицы локальных особенностей и последовательности генома моей сборки:
datasets download genome accession GCF_004684345.1 --include gff3 --include genome
Так как скачанный файл является архивом, я применил команду,
unzip ncbi_dataset.zipчтобы получить необходимые файлы
Чтобы проверить, какая таблица генетического кода используется в моей сборке, я применил следующую команду:
efetch -db 'taxonomy' -id '2562449' -format 'xml' > tax.xml
Была использована таблица под номером 11
Для поиска открытых рамок считывания была использована данная команда, с выдачей записанной в файл ORFs.fasta:
getorf GCF_004684345.1_ASM468434v1_genomic.fna ORFs.fasta -minsize 151 -table 11 -find 0
Перед созданием базы данных:
makeblastdb -in ORFs.fasta -dbtype 'prot'Было проверено отсутсвие отсутсвие транслированных белков, короче 50 а.о. :
infoseq ORFs.fasta | tail -n +2 | cut -f3 -d '-' | sort -n -k2,2 > out_out.txtтакой stdout был применен для удобства просмотра выдачи
Чтобы скачать последовательности указанных в задании метилтрансфераз я использовал следующую команду:
echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > MetTrs.txt
Чтобы собрать эти последовательности вместе в формате .fasta, была применена команда:
seqret @MetTrs.txt query_MTases.fasta
Далее я использовал blastp для поиска сходств между последовательностями организма и метилтрансфераз:
blastp -task blastp -query query_MTases.fasta -db ORFs.fasta -out blastp_MT1.out -outfmt 7Файл с выдачей blastp
Находка с идентификатором NZ_CP038469.1_35676 имеет наибольший вес: 833; per identity составляет 85.115%, что в целом уже может говорить о гомологичности.
Координаты моей находки: 1530970 - 1529510, был обнаружен гомолог P0AED9 (Dcm, m5C-МТаза, E.coli).
Далее определяем, пересекаются ли координаты находки с координатами с какими-то из CDS при помощи двух команд:
grep NZ_CP038469.1 genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsv
echo -e '1529510\t1530970\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsvФайл с выдачей программы
Было найдено пересечение CDS (ID=cds-WP_135322333.1) с координатами 1529507-1530937 с найденной мной открытой рамкой. Рамка считывания CDS и находки практически одинаковая, с разницей в несколько нуклеотидов с одной стороны (3) и в несколько десятков с другой (33). Аннотация полученного CDS также говорит о том, что данный фрагмент кодирует МТазу (product=DNA cytosine methyltransferase)
На данном этапе нужно определить, смогу ли я найти CDS, соответсвующий моей находки при помощи поиска по аннотации кодирующих участков.
Для поиска CDS по аннотации кодирующих участков в геноме был использован следующий конвейер:
elink -target protein -db nuccore -id NZ_CP038469.1 | efilter -query '2.1.1.37' | efetch -format 'fasta'
В результатах поиска по аннотации для EC-2.1.1.37 (m5C) не было найдено ни одного белка.
Вывод: для фермента (m5C-МТаза), соответсвующего выбранной мной находке, я бы не смог найти по аннотации кодирующих участков в геноме нужный CDS.