Практикум 9

Этап 1

В прошлом семестре я работал с протеомом бактерии Nitrosomonas eutropha C91, ниже вы можете увидеть ее частичную характеристику.

Proteome ID: UP000001966
Код доступа геномной сборки из GenBank: GCA_000014765.1
Код доступа геномной сборки из RefSeq: GCF_000014765.1
TaxID бактерии: 335283

Далее мы продолжим работу именно с геномной сборкой из RefSeq.

Этап 2

Скачаем последовательность генома и таблицу локальных особенностей c помощью команды:
datasets download genome accession GCF_000014765.1 --include gff3,genome
Параметр --include указывает на то, какие файлы необходимо скачать: genome - последовательность генома, gff3 - таблица локальных особенностей.

Этап 3

Сперва был уточнен вариант генетического кода моего организма с помощью команды:
efetch -db 'taxonomy' -id '335283' -format 'xml'
Из полученной выдачи можно узнать, что генетический код моей бакетрии №11.
Для автоматической трансляции ORF моей последовательности использовалась команда getorf:
getorf -sequence GCF_000014765.1_ASM1476v1_genomic.fna -table 11 -minsize 150 -find 0 -outseq translation_seq
где -table - номер генетического кода,
-minsize - минимальная длина трансляции в нуклеотидах,
-find - параметр, отвечающий за установление ORF между стоп-кодонами.
С помощью команды infoseq проверим все ли аминокислотные последовательности длиной не меньше 50
infoseq 'translation_seq' -only -length | sort -n | head
параметр -only -length отвечает, за вывод только длин последовательностей.
Подготовим белковую базу для blastp с помощью команды makeblastdb
makeblastdb -in translation_seq -dbtype prot -out proteome
-dbtype - указывает на создание белковой базы данных.

Этап 4

Скачаем последовательность гомологичных метилтрансфераз с помощью функции seqret:
seqret -sequence @<(echo sw:{P0AED9,P0AEE8,P23941} | tr ' ' '\n') -outseq query.fasta
@ позволяет использовать все USA из файла.

Этап 5

Найдем схожие последовательности с помощью команды blastp:
blastp -query query.fasta -db proteome -out result -outfmt 7
Результат вывода: result

Наибольший вес (49.7) имеют две идентичные находки, но с разными идентификаторами доступа NC_008342.1_423 и NC_008341.1_74, это две схожих последовательности, но распологающихся на разных плазмидах (поэтому дальше будем рассматривать только NC_008342.1_423 c плазмиды p2). Эта последовательность, распологаетмя на '-' цепи, имеет координаты [19476 - 17110](узнали из файла translation_seq) и гомологична МТазе m4C из Bacillus amyloliquefaciens.
Участком с наибольшим весом на хромосоме (42.0) является NC_008344.1_22829

Следующим шагом уточним, какие кодирующие области из таблицы локальных особенностей генома пересекаются с найденным выше участком.
1. Из feature table извлечем CDS той же геномной последовательности:
grep '^NC_008342.1' genomic.gff | grep 'CDS' | cut -f 4,5,7,9 > CDS.tsv
2. Отберем из этого файла последовательности с близкими координатами и запишем в файл neighbors.tsv
echo -e '17110\t19476\t-\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv
Результат выдачи: neighbors.tsv

В полученном файле был найден схожий участок последовательности на той же цепи ДНК - СDS WP_011630630.1-2, который имеет координаты [17107 - 19095] (координаты инвертированы, т. к. участки на '-' цепи). Неполное совпадение координат объясняется способом трансляции ORF, а именно от СТОП до СТОП кодона, поэтому начало последовательностей несовпадает, а конец практически совпадает (разница в 3 нукелотида, кодирующих СТОП-кодон).
В добавок к этому найденный CDS кодирует белок, обладающей метил-трансферазной активностью, так что можно с уверенностью сказать, что последовательности гомологичны.

Этап 6

Дополнительно был проведен поиск по аннотациям кодирующих участков, с помощью кода:
elink -id 'NC' -db 'nuccore' -target 'protein' | efilter -query '(EC)' | efetch -format acc
где NC - код двух плазмид и хромосомы, а (EC) - код 3-х метилтрансфераз.
По результатам этих запросов не было найдено ни одной записи.