Смысл этого практикума, используя разные инструменты, найти одну из ДНК-метилтрансфераз в геноме бактерии, которую я выбрала в прошлом семестре. В прошлом семестре я работала с протеомом бактерии Clostridium estertheticum subsp. estertheticum.
Сначала надо получить TaxID Clostridium estertheticum subsp. estertheticum.
grep '^OX' UP000182569.swiss | sort -u | cut -c1-20 | sort -u | less
Я получила только одну строку: OX NCBI_TaxID=1552. То есть все белки принадлежат моей бактерией с TaxID=1552. Далее я посмотрела какие есть сборки для моей бактерии с помощью команды:
datasets summary genome taxon '1552' --as-json-lines | dataformat tsv genome | vd
Результатом команды была таблица, в который встречается только одна сборка GCF_001877035.1 (RefSeq) и GCA_001877035.1 (GenBank). В дальнейщем я буду использовать версию RefSeq.
Далее с помощью АС сборки я скачала полную последовательность генома и таблицу локальных особенностей Clostridium estertheticum subsp. estertheticum. Команды чтобы скачать:
datasets download genome accession GCF_001877035.1 --include 'genome' --include 'gff3'
Далее эти файлы надо распаковать с помощью unzip.Команды:
unzip ncbi_dataset.zip
Для начала надо определить какой генетический код использует моя бактерия. Для этого я использовала команду:
efetch -db 'taxonomy' -id '1552' -format 'xml'
GCId>11 - это значит, что Оказалось, что бактерия использует 11-й вариант генетического кода(Bacterial, Archaeal and Plant Plastid). Далее надо найти открытые рамки считывания между стоп кодонами с продуктами трансляции не короче 50 аминокислот. Команда для этого:
getorf GCF_001877035.1_ASM187703v1_genomic.fna -outseq proteinsdb.fasta -find 0 -minsize 150 -table 11
Далее была сделана белковая база данных для blastp командой:
makeblastdb -dbtype prot -in proteinsdb.fasta -out ORFs
Перед созданием базы данных я проверила, что все трасляты не короче 50 ам.ост. Команда:
infoseq -only -length proteinsdb.fasta | sort -n
Далее, используя поиск по сходству последовательностей с белками из разных бактерий P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens), надо найти ДНК-метилтрансферазы в геноме моей бактерии. Сначала скачаем последовательности этих белков. Сначала я в nano создала файл с их USA (mtt.fasta), затем для скачивания использовала команду:
seqret @mtt.txt query_MTases.fasta
Далее я запустила blastp по базе данных ORFs, в качестве запроса используя последовательности метилтрансфераз из 3 бактерий. Выдача записалась в файл. Команда:
blastp -query query_MTases.fasta -out out.txt -db ORFs -outfmt 7
Лучшая находка (NZ_CP015756.1_12585) имеет вес 65,5 , она гомологична m6A-МТазе из E.coli. Ее координаты в геноме: [3007104 - 3006286], определены с помощью команды:
grep NZ_CP015756.1_12585 proteinsdb.fasta
Далее определим какие белок-кодирующие последовательности располагаются рядом с моей находкой (или перекрываются с ней). Сначала создадим файл с CDS из той же последовательности, что и находка. Команда:
grep NZ_CP015756.1 genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsv
Команда для поиска близко расположенных последоватеьностей:
echo -e '3007104\t3006286\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv
neighbors С моими координатами пересекается рамка 3006283-3007044, которая располагется на обратной цепи. В описании сказано, что продукт этой рамки является DNA adenine methylase.
Далее надо определить, возможно ли выявление кодирующей последовательности (CDS), соответствующей найденному гену, на основе анализа аннотации кодирующих участков генома. Поиск производился по ЕС-кодам ферментов: 2.1.1.37 (m5C), 2.1.1.72 (m6A) и 2.1.1.113 (m4C). Команда (сначала мы отбираем белки, которые закодированы в нуклеотидной последовательности с заданным AC, а потом среди этих белков отбираем те, в аннотациях которых упоминаются EC коды) :
elink -db nuccore -id 'NZ_CP015756.1' -target protein | efilter -query '2.1.1.37' | efetch -format 'fasta'
elink -db nuccore -id 'NZ_CP015756.1' -target protein | efilter -query '2.1.1.72' | efetch -format 'fasta'
elink -db nuccore -id 'NZ_CP015756.1' -target protein | efilter -query '2.1.1.113' | efetch -format 'fasta'
В результате нашелся только 1 белок, относящийся к системе рестрикции-модификации: >WP_071611571.1 type I restriction-modification system subunit M [Clostridium estertheticum]. Дальше я решила сравнить идентификаторы этого белка и из предыдущего пункта. Они оказались разные, значит это разные белки. Вывод: мы не смогли найти ту же CDS, которую нашли через бласт.