Практикум 9

Задание 1. Получение AC геномной сборки

В этом практикуме я исследовал протеом бактерии Pseudomonas aeroginosa. Сравнение этого протеома с контролем было проведено в практикуме по ссылке

Команда для поиска и проверки TaxID:

zgrep '^OX' 'UP000002438.swiss.gz'|cut -c 17-23|sort -u

По TaxID 208964 был проведен поиск сборок, соответсвующих таксону:

datasets summary genome taxon 208964 --as-json-lines|dataformat tsv genome

Был выбран AC GCF_000006765.1, так как он является референсным.

Задание 2. Скачивание последовательности генома и таблицы локальных особенностей

С помощью программы datasets и использованием нужного AC были получены необходимые файлы.

 datasets download genome accession GCF_000006765.1 --include genome,gff3

Задание 3. Поиск и трансляция открытых рамок считывания

Прежде чем искать рамки считывания, необходимо определить какой таблицой генетического кода пользоваться. Согласно записи про исследуемый таксон нужна таблица 11. Команда для поиска:

 efetch -db taxonomy -id 208964 -format xml |less

Команда для поиска и трансляции открытых рамок между стоп-кодонами, с длинной последовательности не менее 50 аминоксилот:

getorf GCF_000006765.1_ASM676v1_genomic.fna frame.fasta -table 11 -minsize 150 -find 0

Проверка с помощью infoseq подтвердила, что последовательностей меньше 50 а.о нет:

infoseq -only -length frame.fasta |sort -u -n|less

С использованием транслированных рамок считывания была получена локальная белковая база для blastp:

makeblastdb -in frame.fasta -dbtype prot -out ORFs

Задание 4. Получение последовательностей гомологичных метилтрансфераз

Для дальнейшего исследования были скачены последовательности следующих белков: P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).

echo 'sw:P0AED9 sw:P0AEE8 sw:P23941'|tr ' ' '\n'|seqret '@stdin' query_MTases.fasta

Задание 5. Поиск по сходству последовательностей

Для поиска гомологов метилтрансфераз у Pseudomonas aeroginosa использовалась программа blastp:

blastp -query query_MTases.fasta -db ORFs -out res_blastp.txt -outfmt 7
Выдача команды

С максимальным весом (33.5) оказалось 2 находки, я выбрал из них NC_002516.2_44409 (координаты в геноме:3411766 - 3414099), (e-value немного хуже, но процент идентичности выше). Это гомолог m4C-МТазы Bacillus amyloliquefaciens.

Далее были найдены CDS из таблицы локальных особенностей расположенные рядом с находкой:

grep '>NC_002516.2' genomic.gff |grep 'CDS'|cut -f 4,5,7,9 > CDS.tsv
echo -e '3411766\t3414099\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv
neighbors.tsv

Находка пересекается с CDS с координатами 3411763-3413940, которая кодирует метилтрансферазу 23s рРНК.

Задание 6. Поиск по аннотациям кодирующих участков

Поскольку найденный гомолог кодирует рРНК метилтрансферазу, то найти её по EC ДНК метилтрансфераз не выйдет, поэтому просто перепроверил наличие ДНК метилтрансфераз. Команда для поиска (на примере EC m4C-МТазы Bacillus amyloliquefaciens):

 elink -db nuccore -target protein -id NC_002516.2|efilter -query '2.1.1.113 '|efetch -format fasta

В результате ничего не нашлось.