Практикум 9

Получение AC геномной сборки

В данном практикуме я использовала файл в формате swiss, который был скачан в прошлом семестре для выполнения практикума 8 и сжат с помощью gzip. В нём содержится информация о белках протеома бактерии Sulfurimonas aquatica.

Для получения AC геномной сборки для начала необходимо узнать TaxID организма, которому принадлежит геном. Для этого я использовала следующий конвейер:

zcat UP000671852.swiss.gz | grep '^OX' | cut -f4 -d ' ' | sort -u

Результат выдачи:

NCBI_TaxID=2672570

Таким образом, я удостоверилась, что для всех белков протеома Sulfurimonas aquatica значения TaxID совпадают.

Далее я получила список сборок генома Sulfurimonas aquatica вместе с основными полями записи при помощи следующего конвейера:

datasets summary genome taxon 2672570 --as-json-lines | dataformat tsv genome | vd

В списке оказалась лишь одна сборка, которая и соответствует используемому протеому.

Полученная таблица содержит в том числе и информацию об AC (AC: GCF_017357825.1).

Скачивание последовательности генома и таблицы локальных особенностей

Используя полученный AC сборки, я запустила следующую программу:

datasets download genome accession GCF_017357825.1 --include genome,gff3

В результате был скачан архив с файлами, который содержит в том числе последовательность генома и таблицу локальных особенностей. Архив был распакован при помощи следующей команды:

unzip ncbi_dataset.zip

Поиск и трансляция открытых рамок считывания

Для начала я нашла информацию о том, какую таблицу генетического кода использует Sulfurimonas aquatica. Для этого я запустила следующий конвейер:

efetch -db taxonomy -id 2672570 -format xml

Результатом выдачи является таблица, в соответствующей графе которой указано, что Sulfurimonas aquatica использует таблицу генетического кода №11.

Далее я использовала следующую команду:

getorf GCF_017357825.1_ASM1735782v1_genomic.fna -outseq ramki.fasta -table 11 -minsize 150 -find 0

С помощью неё я нашла открытые рамки считывания между двумя стоп-кодонами, которые сразу транслировались. При этом был выбран минимальный размер фрагмента в 150 нуклеотидов, чтобы убрать из рассмотрения слишком короткие продукты трансляции (меньше 50 аминокислот).

После этого я проверила при помощи данного конвейера, что среди полученных трансляций нет тех, длина которых меньше 50 аминокислот:

infoseq ramki.fasta | tr -s ' ' | cut -f6 -d ' ' | tail -n +2 | sort -n -u

После проверки я создала по данным трансляциям белковую базу при помощи следующей команды:

makeblastdb -in ramki.fasta -dbtype prot -out ORFs.fasta

Получение последовательностей гомологичных метилтрансфераз

Следующей целью было найти ДНК-метилтрансферазы, последовательности которых имеют сходства с последовательностями следующих белков (в скобках указаны коды доступа Swiss-Prot):

Dcm, m5C-MTаза, E. coli (P0AED9)
Dam, m6A-МТаза, E. coli (P0AEE8)
m4C-МТаза, Bacillus amyloliquefaciens (P23941)

Для начала было необходимо получить последовательности данных ДНК-метилтрансфераз.

Для этого я воспользовалась следующим конвейером:

echo "sw:P0AED9" "sw:P0AEE8" "sw:P23941" | tr ' ' '\n' | seqret -filter @stdin -outseq query_MTases.fasta

Поиск по сходству последовательностей

Следующим шагом был произведен поиск сходных последовательностей при помощи blastp.

Поиск был выполнен посредством следующей команды:

blastp -task blastp -query query_MTases.fasta -db ORFs.fasta -outfmt 7 -out mtase_result

Результаты поиска в виде таблицы

Лучшей по весу находкой является находка с идентификатором NZ_CP046072.1_6036. Это гомолог m5C-метилтрансферазы E. coli.

Ниже представлена некоторая информация об этой находке:

Вес: 42

Координаты: [2611252 - 2610206] (REVERSE SENSE)

Далее в отдельный файл (CDS.tsv) я сохранила строки из таблицы локальных особенностей, которые соответствуют CDS в той же последовательности, что и полученная ранее находка, и столбцы с координатами (4 и 5), цепью (7) и некоторой информацией (9).

Это было сделано с помощью следующей команды:

grep 'NZ_CP046072.1' genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv

После этого в полученный файл я добавила строчку со своей находкой, отсортировала по координатам и выбрала по три соседних с моей находкой CDS. Это было сделано с помощью следующего конвейера:

echo -e '2610206\t2611252\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

Результат выдачи представлен в следующем файле:

neighbors.tsv

Из полученного файла можно заметить, что координаты моей находки перекрываются с координатами двух соседних находок (координаты этих находок: [2610203-2611249] и [2611246-2612331]).

Однако в значительной степени пересекаются координаты только с одной находкой, которая соответствует гену m5C-метилтрансферазы.

Поиск по аннотациям кодирующих участков

Следующей целью было найти посредством поиска по аннотациям кодирующих участков в геноме CDS, который соответствует моей находке.

Для поиска я использовала EC-код ферментов, соотвествующих m5C-метилтрансферазам. Это 2.1.1.37.

Поиск был произведен с помощью следующего конвейера:

elink -db 'nuccore' -target 'protein' -id 'NZ_CP046072.1' | efilter -query '2.1.1.37' | efetch -format 'fasta'

В результате поиска был найден один белок (WP_207561708.1), который соответствует ДНК-цитозин-метилтрансферазе.

Этот белок совпадает с находкой, полученной в предыдущем пункте.