Практикум 9. EMBOSS, Entrez Direct, NCBI Datasets

Получение AC геномной сборки

Перед тем, как начать работу с практикумом я скачала для своего прошлосеместрового организма (Streptomyces globosus) файл с протеомом при помощи команды:

Изначально этот прекрасный файл заархивирован, поэтому пришлось прибегнуть к распаковке следующим образом (у меня Linux):

После этих действий началась работа непосредственно в рамках практикума.

Для начала необходимо найти генмную сборку, соответствующую моему протеому. Для начала, надо было найти TaxID моего организма; была выполнена следующая программа в терминале:

На выходе я получила: 6315 NCBI_TaxID=68209.

Далее по TaxID нужно было увидеть все возможные геномные сборки организма, что было получено при помощи следующей команды:

Для работы я выбрала самую верхнюю сборку (потому что она самая лучшая) GCF_039529415.1.

Рисунок 1. Часть полученного результата команды datasets ...

Скачивание последовательности генома и таблицы локальных особенностей

Затем нужно было скачать геном и таблицу локальных особенностей для моего организма. Для этого я использовала следующую команду:

После загрузки архив с файлами надо распаковать с помощью следующей программы:

После распаковки в моей рабочей директории term3/pr9 появились следующие файлы: md5sum.txt README.md и директория ncbi_dataset, которая оказалась очень полезной для выполнения следующих заданий.

Поиск и трансляция открытых рамок считывания

Прежде, чем искать открытые рамки считывания, нужно было определить, какой вариант генетического кода использует моя бактерия (большая вероятность того, что таблица №11, но нужно было удостовериться). Для этого использовалась следующая программа:

Я залезла в полученный файл info.xml и подтвердила своё изначальное предположение.

Рисунок 2. Часть файла info.xml с указаникем на генетический код

Затем с помомщью следующей команды были найдены открытые рамки считывания (предварительно из директории ncbi_dataset/data/GCF_039529415.1 был скопирован файл GCF_039529415.1_ASM3952941v1_genomic.fna в рабочую директорию):

Дальше была создана белковая база для blastp с названием ORFs:

По результату программы были получены следующие файлы: ORFs.pdb ORFs.phr ORFs.pin ORFs.pot ORFs.psq ORFs.ptf ORFs.pto.

С помощью программы infoseq из EMBOSS надо было проверить, что среди трансляций нет тех, которые короче 50 а.о.:

Получение последовательностей гомологичных метилтрансфераз

Из Swiss-Prot были скачены 3 последовательности ДНК-метилтрансфераз (P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), P23941 (m4C-МТаза, Bacillus amyloliquefaciens)), которые в следующем запросе будут запросом в программе blastp. Это было выполнено программой, создающей файл query_MTases.fasta с тремя последовательностями:

Поиск по сходству последовательностей

Поиск по сходству последоватаельностей осуществлялся при помощи blastp, с использованием команды:

Здесь представленна ссылка на файл с находками. Заглянув в него, я увидела, что С DCM_ECOLI было найдено 5 находок, а с DMA_ECOLI и MTB1_BACAM ничего не было найдено.

Рисунок 3. Файл с находками

Самая лучшая находка была с весом - 59.3. Название рамки - NZ_BAAAMT010000041.1_285. У этой находки хороший показатель E-value: 2.35e-09, а её координаты в геноме: 37305-38603.

С использованием координат находки, можно отобрать CDS из таблицы локальных особенностей. Далее нужно было определить с какими CDS пересекается моя лучшая находка, для этого нужно создать файл CDS.tsv, содержащий только CDS из той же нуклеотидной последовательности, что и находка, а также необходимую информацию о них (все данные о CDS были взяты из файла genomic.gff из описанной ранее директории):

После этого были выбраны близлежащие CDS с помощью следующей команды:

Здесь представлен полученный файл. Была найдена 1 CDS WP_344332434.1, кординаты которой пересекаются (37302-38588) с найденной ORF, но они полностью не накладываются.

Поиск по аннотациям кодирующих участков

В завершении, надо попробовать найти CDS, соответствующие моей находке, с помощью поиска по аннотации кодирующих участков в геноме. Для этого были выполнены следующие похожие друг на друга команды:

По результатам данных программ (по факту только первая дала результат) был получен белок WP_344332434.1, который есть и в файле neighbors.tsv.