Информация об организме и геномной сборке
Для дальнейшей работы был взят геном, на основе которого был получен референсный протеом бактерии Octadecabacter ascidiaceicola (Proteome ID: UP000203464). Стоит отметить, что уровень данной сборки генома - Contig, и сборка содержит 11 отдельных контигов.
Код доступа данной сборки из GenBank: GCA_900185015.1
Код доступа данной сборки из RefSeq: GCF_900185015.1
Ссылка на страницу в NCBI Datasets Genome
Скачивание последовательности генома и таблицы локальных особенностей
Последовательность и таблица локальных особенностей были загружены при помощи следующей команды:
datasets download genome accession GCF_900185015.1 --include genome,gff3
И разархивированы при помощи команды:
unzip ncbi_dataset.zip
Получение последовательностей гомологичных метилтрансфераз
Поскольку задача заключается в поиске рамок считывания, потенциально кодирующих ДНК-метилтрансферазы, в геноме бактерии, были загружены аминокислотные последовательности трех ДНК-метилтрансфераз различных групп: P0AED9 (Dcm, m5C-метилтрансфераза, Escherichia coli), P0AEE8 (Dam, m6A-метилтрансфераза, Escherichia coli) и P23941 (m4C-метилтрансфераза системы BamHI, Bacillus amyloliquefaciens):
echo 'sw:P0AED9 sw:P0AEE8 sw:P23941' | tr ' ' '\n' | seqret -filter @stdin -outseq query.fasta
Поиск и трансляция открытых рамок считывания
Для определения генетического кода, используемого Octadecabacter ascidiaceicola (Taxonomy ID: 1655543), была загружена запись из NCBI Taxonomy:
efetch -db taxonomy -id 1655543 -format 'xml' > organism_data.xml
Рассматриваемая бактерия использует генетический код, представленный в таблице №11, как и многие другие бактерии и археи.
Далее были получены трансляции открытых рамок считывания между стоп-кодонами длиной не менее 50 аминокислотных остатков:
getorf -sequence O_ascidiaceicola_genomic.fna -table 11 -find 0 -minsize 150 -outseq ORFs.fa
Для проверки корректности длин отобранных ORF использовался код:
infoseq ORFs.fa -filter -only -length | sort -n | head -n 2
На основе полученных ORF была создана база данных для локального blastp:
makeblastdb -in ORFs.fa -dbtype 'prot' -out proteome
Поиск по сходству последовательностей
Наконец, посредством локального blastp, был проведен поиск транслированных ORF, сходных с последовательностями загруженных ДНК-метилтрансфераз:
blastp -query query.fasta -db proteome -outfmt 7 -out blast_res.table
Табличная выдача локального blastp
Среди полученных результатов имеются два с достаточно низким e-value и большим весом, информация о них приведена в Таблице 1.
| Название | NZ_FXYD01000004.1_903 | NZ_FXYD01000002.1_3791 |
|---|---|---|
| Координаты | 190265 – 191398 | 598840 - 597530 |
| Вес (в битах) | 94.0 | 79.7 |
| Тип | m4C | m5C |
Далее для поиска соседних аннотированных CDS из таблицы локальных особенностей были выбраны столбцы, в которых указаны контиг (1), координаты (4 и 5), цепь (7) и дополнительная информация (9), а также строки, содержащие информацию о CDS (CDS в столбце 3):
cut genomic.gff -f1,3,4,5,7,9 | tr '\t' '$' | grep '\$CDS\$' | tr '$' '\t' | cut -f1,3-6
> CDS.tsv
Сначала была рассмотрена находка NZ_FXYD01000004.1_903.
Был осуществлен поиск соседних CDS из таблицы локальных особенностей, для этого использовался код:
echo -e 'NZ_FXYD01000004.1\t190265\t191398\t+\tTarget_ORF' | cat - CDS.tsv | sort -n -k 2 |
grep -C 10 'Target_ORF' > neighbors.tsv
Среди соседних CDS имеется WP_093996974.1 с координатами 190292 - 191401, то есть она отличается от найденной при помощи blastp ORF только учтенным стоп-кодоном на конце последовательности, а также отсуствием нескольких триплетов в начале последовательности, что объясняется тем, что при поиске ORF проводился поиск рамок считывания между двумя стоп-кодонами. Помимо этого в описании данной CDS указано "site-specific DNA-methyltransferase".
Аналогичные действия были совершены для находки NZ_FXYD01000002.1_3791:
echo -e 'NZ_FXYD01000002.1\t597530\t598840\t-\tTarget_ORF' | cat - CDS.tsv | sort -n -k 2 |
grep -C 10 'Target_ORF' > neighbors_m5C.tsv
Таблица соседних CDS для находки NZ_FXYD01000002.1_3791
В этом случае была найдена CDS WP_093996089.1 с координатами 598792 - 597527 (координаты инвертированы, так как CDS располагается на комплементарной цепи). Отличия координат CDS от ORF объясняются так же, как и для предыдущей находки. В описании данной CDS указано "DNA (cytosine-5-)-methyltransferase activity", а также "S-adenosyl-L-methionine binding", что имеет смысл, поскольку S-аденозилметионин является основным донором метильной группы для ДНК-метилтрансфераз.
Поиск по аннотациям кодирующих участков
Для найденной потенциальной m4C-метилтрансферазы была осуществлена попытка найти ее в геномной последовательности Octadecabacter ascidiaceicola по наличию кода EC 2.1.1.113 в аннотации:
elink -db nuccore -id 'NZ_FXYD01000004' -target 'protein' | efilter -query '2.1.1.113' |
efetch -format 'acc'
По данному запросу не было найдено ни одного результата.
Аналогичная попытка была сделана для потенциальной m5C-метилтрансферазы:
elink -db nuccore -id 'NZ_FXYD01000002' -target 'protein' | efilter -query '2.1.1.37[ECNO]' |
efetch -format 'acc'
Был найден 1 результат, который как раз соотвествует найденной CDS потенциальной m5C-метилтрансферазы: WP_093996089.1.