Практикум 9

Получение AC геномной сборки

В 8 практикуме прошлого семестра был выбран и скачан протеом UP000192900 организма Pantoea alhagi.

Для получения строк, содержащих TaxID организма был использован конвейер:

 grep -e 'TaxID' UP000242432.swiss | cut -d ' ' -f4 | sort -u | less

Выдача:

NCBI_TaxID=1891675

Далее по TaxID нужно было посмотреть геномные сборки для данного организма, это было сделано следующей программой:

 zgrep 'DR   EMBL' UP000192900.swiss.gz| cut -f 5 -d ' ' | tr -d ';' | elink -db nuccore -target assembly | esummary | xtract -pattern DocumentSummary -element AssemblyAccession

Выдача:

GCF_002101395.1

Скачивание последовательности генома и таблицы локальных особенностей

С помощью AC сборки (GCF_002101395.1) можно скачать нуклеотидную последовательность генома и таблицу локальных особенностей:

datasets download genome accession GCF_002101395.1 --include gff3 --include genome

Скачанный архив ncbi_dataset.zip был разархивирован командой:

unzip ncbi_dataset.zip

Поиск и трансляция открытых рамок считывания

Нужно определить, какой вариант генетического кода использует исследуемый организм. Для этого нужно скачать таблицу записи про таксон в базе NCBI Тaxonomy, и сделано это было с помощью этой команды:

efetch -db 'taxonomy' -id '1891675' -format 'xml' > ncbi.xml

В полученном файле было обнаружено, что данный организм использует таблицу генетического кода №11. Поиск открытых рамок считывания был произведен с помощью команды:

getorf 'GCF_002101395.1_ASM210139v1_genomic.fna' -table 11 -minsize 150 open.fasta

Для того, чтобы понять если ли в файле open.fasta последовательности меньше 50 а. о. была использована команда, считающая длину всех транслированных белков:

infoseq -sequence open.fasta -only -length | sort -u -n | less

Оказалось, что в файле нет последовательностей короче 50 а.о. (самая короткая последовательномть и есть 50 а.о.)

Далее была создана белковая база данных на основе полученных открытых рамок считывания:

makeblastdb -in open.fasta -dbtype prot -out ORFs

Получение последовательностей гомологичных метилтрансфераз

Необходимо получить последовательности гомологичных метилтрансфераз P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens). Это было сделано с помощью конвейера:

echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' | seqret -filter '@stdin' 'query_MTases.fasta'

Поиск по сходству последовательностей

С помощью blastp были найдены белковые последовательности в геноме (ORFs), схожие с последовательностями ДНК-метилтрансфераз (query_MTases.fasta):

 blastp -query query_MTases.fasta -db ORFs -outfmt 7 -out blast.txt

Выдача blast

Лучшая по весу находка NZ_CP019706.1_14105 , ее вес 679, координаты в геноме - [3218268 - 3219713]. E-value: 0.0 (минимальное)

С помощью конвейера был получен файл CDS.tsv, содержащий нужные строки и столбцы:

grep 'NZ_CP019706.1' genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsv

Далее были обнаружены участки, которые по координатам наиболее близки с находкой:

echo -e '3218268\t3219713\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

Файл CDS

Была найдена CDS (DNA cytosine methyltransferase, ID=cds-WP_085071275.1, тем самым найден гомолог m5C-МТаза), кординаты которой пересекаются (3218304-3219716) с найденной ORF, но они полностью не накладываются.

Поиск по аннотациям кодирующих участков

Команда для поиска CDS в аннотации генома Pantoea alhagi (2.1.1.72 – EC-код ДНК-метилтрансферазы m6A):

 elink -target protein -db nuccore -id NZ_CP019706.1 | efilter -query '2.1.1.72' | efetch -format 'fasta'

Выдача:

>WP_085068549.1 adenine-specific DNA-methyltransferase [Pantoea alhagi]
MKKNRAFLKWAGGKYPLLEDIRRHLPQGDCLVEPFVGAGSVFLNTDYPRYVLADINNDLIGLYNIVKGRT
VEFVSDARQLFTPRSNEADAYYAYRSEFNASDDAYRRALLFLYLNRHGYNGLCRYNLRGEFNVPFGRYRK
PYFPEEELYGFAERAQKAVFVCESYDVTLSKAQAGSVVYCDPPYAPLSTTANFTAYHTNSFSLREQQHLA
ELAVKLAQESAIPVLISNHDTELTRLWYQDAVLHVVKARRSISRSISGRTKVDELLALFC

В итоге нашелся 1 белок(WP_085068549.1) - m6A-МТаза. Найденного гомолога m5C-МТаза не было обнаружено. Таким было найдено 2 гомолога.