Timonina, pr9

Практикум 9

Этап 0. Протеом бактерии Clostridium estertheticum subsp. estertheticum.

Смысл этого практикума, используя разные инструменты, найти одну из ДНК-метилтрансфераз в геноме бактерии, которую я выбрала в прошлом семестре. В прошлом семестре я работала с протеомом бактерии Clostridium estertheticum subsp. estertheticum.

Этап 1. получение AC геномной сборки

Сначала надо получить TaxID Clostridium estertheticum subsp. estertheticum.

grep '^OX' UP000182569.swiss | sort -u | cut -c1-20 | sort -u | less

Я получила только одну строку: OX NCBI_TaxID=1552. То есть все белки принадлежат моей бактерией с TaxID=1552. Далее я посмотрела какие есть сборки для моей бактерии с помощью команды:

datasets summary genome taxon '1552' --as-json-lines | dataformat tsv genome | vd

Результатом команды была таблица, в который встречается только одна сборка GCF_001877035.1 (RefSeq) и GCA_001877035.1 (GenBank). В дальнейщем я буду использовать версию RefSeq.

Этап 2. Скачивание последовательности генома и таблицы локальных особенностей

Далее с помощью АС сборки я скачала полную последовательность генома и таблицу локальных особенностей Clostridium estertheticum subsp. estertheticum. Команды чтобы скачать:

datasets download genome accession GCF_001877035.1 --include 'genome' --include 'gff3'

Далее эти файлы надо распаковать с помощью unzip.Команды:

unzip ncbi_dataset.zip

Этап 3. Поиск и трансляция открытых рамок считывания

Для начала надо определить какой генетический код использует моя бактерия. Для этого я использовала команду:

efetch -db 'taxonomy' -id '1552' -format 'xml'

GCId>11 - это значит, что Оказалось, что бактерия использует 11-й вариант генетического кода(Bacterial, Archaeal and Plant Plastid). Далее надо найти открытые рамки считывания между стоп кодонами с продуктами трансляции не короче 50 аминокислот. Команда для этого:

getorf GCF_001877035.1_ASM187703v1_genomic.fna -outseq proteinsdb.fasta -find 0 -minsize 150 -table 11

Далее была сделана белковая база данных для blastp командой:

makeblastdb -dbtype prot -in proteinsdb.fasta -out ORFs

Перед созданием базы данных я проверила, что все трасляты не короче 50 ам.ост. Команда:

infoseq -only -length proteinsdb.fasta | sort -n

Этап 4. Получение последовательностей гомологичных метилтрансфераз

Далее, используя поиск по сходству последовательностей с белками из разных бактерий P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens), надо найти ДНК-метилтрансферазы в геноме моей бактерии. Сначала скачаем последовательности этих белков. Сначала я в nano создала файл с их USA (mtt.fasta), затем для скачивания использовала команду:

seqret @mtt.txt query_MTases.fasta

Этап 5. Поиск по сходству последовательностей

Далее я запустила blastp по базе данных ORFs, в качестве запроса используя последовательности метилтрансфераз из 3 бактерий. Выдача записалась в файл. Команда:

blastp -query query_MTases.fasta -out out.txt -db ORFs -outfmt 7

Лучшая находка (NZ_CP015756.1_12585) имеет вес 65,5 , она гомологична m6A-МТазе из E.coli. Ее координаты в геноме: [3007104 - 3006286], определены с помощью команды:

grep NZ_CP015756.1_12585 proteinsdb.fasta

Далее определим какие белок-кодирующие последовательности располагаются рядом с моей находкой (или перекрываются с ней). Сначала создадим файл с CDS из той же последовательности, что и находка. Команда:

grep NZ_CP015756.1 genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsv

Команда для поиска близко расположенных последоватеьностей:

echo -e '3007104\t3006286\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

neighbors С моими координатами пересекается рамка 3006283-3007044, которая располагется на обратной цепи. В описании сказано, что продукт этой рамки является DNA adenine methylase.

Этап 6. Поиск по аннотациям кодирующих участков

Далее надо определить, возможно ли выявление кодирующей последовательности (CDS), соответствующей найденному гену, на основе анализа аннотации кодирующих участков генома. Поиск производился по ЕС-кодам ферментов: 2.1.1.37 (m5C), 2.1.1.72 (m6A) и 2.1.1.113 (m4C). Команда (сначала мы отбираем белки, которые закодированы в нуклеотидной последовательности с заданным AC, а потом среди этих белков отбираем те, в аннотациях которых упоминаются EC коды) :

elink -db nuccore -id 'NZ_CP015756.1' -target protein | efilter -query '2.1.1.37' | efetch -format 'fasta'

elink -db nuccore -id 'NZ_CP015756.1' -target protein | efilter -query '2.1.1.72' | efetch -format 'fasta'

elink -db nuccore -id 'NZ_CP015756.1' -target protein | efilter -query '2.1.1.113' | efetch -format 'fasta'

В результате нашелся только 1 белок, относящийся к системе рестрикции-модификации: >WP_071611571.1 type I restriction-modification system subunit M [Clostridium estertheticum]. Дальше я решила сравнить идентификаторы этого белка и из предыдущего пункта. Они оказались разные, значит это разные белки. Вывод: мы не смогли найти ту же CDS, которую нашли через бласт.