В первом семестре референсным протеомом в задании был выбран протеом Mucilaginibacter polytrichastri. Далее он будет использоваться для поиска ДНК-метилтрансферазы в геноме.
| Тип идентификатора | Значение |
|---|---|
| UniProt ID | UP000186720 |
| GenBank Accession | GCA_001911425.1 |
| RefSeq Accession | GCF_001911425.1 |
Ссылка на страницу сборки в Genome
Далее с помощью следующей комнады были скачаны последовательность и feature table геномной сборки.
datasets download genome accession GCF_001911425.1 -–include genome,gff3
И после разорхивирована с помощью команды:
unzip ncbi_dataset.zip
следующей задачей было определить, какой вариант генетического кода использует организм. Для этого использовалась следующая команда:
esearch -db 'taxonomy' -query 'Mucilaginibacter polytrichastri[orgn]' | efetch -format 'xml' > orftab.txt
Среди полученной выдачи была нужная строка с информацией о том, что мой орагнизм испоользует таблицу №11.
< GeneticCode>
< GCId>11< /GCId>
Для нахождения открытых рамок считывания использовалась следующая команда:
getorf -sequence ./ncbi_dataset/data/GCF_001911425.1/GCF_001911425.1_ASM191142v1_genomic.fna -outseq prseq.fasta -minsize 150 -find 0 -table 11
Кроме того, было необходимо проверить, точно ли с помощью предедущей команды получились трансляции не короче 50 аминокислот и для этого использовался конвейр с infoseq:
infoseq prseq.fasta -only -length | sort -n | less
И создать базу данных для локального blstp на основе полученных ORF.
makeblastdb -in prseq.fasta -dbtype prot -out proteome
Скачивание последовательностей трех ДНК-метилтрансфераз из Swiss-Prot производилось с помощью следующего конвейра:
echo 'sw:P0AED9 sw:P0AEE8 sw:P23941' | tr " " "\n" | seqret -filter @stdin -outseq query.fasta
Далее с поомщью локального blstp был произведен поиск гомологичных последовательностей.
blastp -db proteome -query query.fasta -outfmt 7 -out blastp5.out
Создание файла с ORF со столбцами с необходимой информацией (столбцы с координатами, цепью и дополнительной информацией) проводилось с помощью следующей команды:
grep 'CDS' ncbi_dataset/data/GCF_001911425.1/genomic.gff | cut -f 4,5,7,9 > CDS.tsv
Лучшей находкой по весу (35.8) - NZ_MPPL01000001.1_28584. Координаты находки в геноме - [1664763 - 1661536]. Судя по выдаче blstp, находка должна была быть гомологичной m4C-Мтазе (P23941). Но при этом находка имеет сомнительный e-value - 0.017, который при этом является одним из самых низких среди всех находок blastp по всем трем ДНК-трансферазам. При поиске пересечений с ранее вырезанными CDS с помощью команды:
echo -e '1661536\t1664763\t-\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 5 'FOUND-ORF' > neighbors.tsv
Выдача показала один CDS с координатами достаточно близкими к рамке считывания [1661533 1664724], но при этом в описании белка указано, что это TonB-зависимый рецептор наружной мембраны семейства SusC/RagA (никак не гомологичным ДНК-трансферазам). Остальные бликзие CDS не пересекются с ORF.
Аналогичные махинации были произведены с еще одной находкой NZ_MPPL01000001.1_13122 с e-value - 0.016 и весом равным 32.3. Её координаты - [4471679 - 4471828]. Результат - найдена CDS с координатами [4471770-4472468] и описанием белка - белок с N-концевым аминопептидазным доменом типа ApeA, что тоже негомологично предполагаемой m5C-МТазе.
Находка среди гомологов m6A-МТазы так же, как и предыдущие, не дала нужного результата. С наибольшим весом (28.1) и очень большим e-value равным 2.7 - NZ_MPPL01000001.1_26335. Координаты найденой ORF - [2501750-2504941], CDS - [2501747 2504926], а описание продукта - cубъединица пермеазы RND-транспортера систем эффлюкса, так же не подходит под требования задачи.
Несмотря на то, что в бактерии не были найдены ДНК-метилтрансферазы, нужно подтвердить это и поиском по аннотации кодирующих участков в геноме. Поиск проводился по EC-коду, который соответствует находке NZ_MPPL01000001.1_13122.
elink -db nuccore -target protein -id 'NZ_MPPL01000001.1' | efilter -query '(2.1.1.37[ECNO] OR 2.1.1.72[ECNO] OR 2.1.1.113[ECNO])' | efetch -format 'acc' | less
Как и ожидалось, ничего не было найдено. Следовательно, в рассматриваемом референсном геноме Mucilaginibacter polytrichastri нет ДНК-метилтрансфераз, либо, возможно, они далеки от последовательностей примерной выборки.