УЧЕБНЫЙ САЙТ АРТЕМА МУРАВЛЕВА

Практикум 9

Этап 0. Протеом бактерии Teridinibacter turnerae

В данном практикуме мной использовался протеом целлюлозоразлагающей бактерии(внутриклеточного симбионта мороского червя) Teridinibacter turnerae. Другие файлы, относящиеся к данному отчету, также можно найти в папке /home/students/y23/muravlev/term3/pr9

Этап 1. Получение идентификаторов сборок

Для начала работы с геномом Teridinibacter turnerae было необходимо получить её TaxID из файла с протеомом и убедиться, что он одинаков для всех белков протеома. Это было сделано с помощью данной команды:

grep 'OX ' UP000009080.swiss | sort | cut -f1 -d '{' | uniq -c

Результат работы:

251 OX NCBI_TaxID=377629;

3998 OX NCBI_TaxID=377629

Таким образом, было подтверждено, что у всех белков протеома одинаковый TaxID, и найден сам TaxID(377629).

Далее был произведен поиск сборок по TaxID. Это было сделано с помощью команды

esearch -db 'assembly' -query 'txid377629' | efetch -format 'docsum' | grep 'AssemblyAccession'

Результат: GCF_000023025.1

Таким образом, был найдена единственная сборка, которая, к тому же, является референсной. В дальнейшем работа производилась с ней.

Этап 2. Скачивание информации о геноме

Последовательность генома и его таблица локальных особенностей были скачаны с помощью команды

datasets download genome accession GCF_000023025.1 --include genome,gff3

Далее архив с этими данными был распакован с помощью команды

unzip ncbi_dataset.zip

Этап 3. Поиск ORF и их трансляция

Для определения таблицы генетического кода Teridinibacter turnerae была скачана запись о таксоне из базы данных NCBI Тaxonomy с помощью команды

esearch -db 'taxonomy' -query 'Teredinibacter turnerae T7901' | efetch -mode xml > gentable_out

gentable_out - файл с записью NCBI Тaxonomy для Teridinibacter turnerae. У данной бактерии 11 таблица генетического кода.

Далее были предсказаны рамки считывания(между стоп-кодонами, трансляции не короче 150 аминокислот) в исследуемом геноме и получены их трансляции. Сделано это было с помощью команды

getorf -sequence ncbi_dataset/data/GCF_000023025.1/GCF_000023025.1_ASM2302v1_genomic.fna -outseq translated_out -minsize 150 -find 0 -table 11

GCF_000023025.1_ASM2302v1_genomic.fna - файл с последовательностью генома, translated_out - промежуточный файл с трансляциями рамок считывания.

С помощью команды infoseq было проверено и подтверждено, что все трансляции не меньше 50 а.о.

infoseq translated_out -only -length | sort -n > check_out

По трансляциям рамок считывания была создана база данных ORFs с помощью команды

makeblastdb -dbtype prot -in translated_out -out ORFs

Этап 4. Скачивание последовательностей метилтрансфераз

С помощью команды seqret в файл query_MTases.fasta были загружены последовательности метилтрансфераз P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).

echo 'sw:P0AED9; sw:P0AEE8; sw:P23941' | tr '; ' '\n' | seqret -filter -sequence '@stdin' -outseq query_MTases.fasta

Данные метилтрансферазы в дальнейшем были использованы для поиска гомологов в геноме Teridinibacter turnerae.

Этап 5. Поиск гомологов метилтрансфераз в геноме Teridinibacter turnerae

С помощью алгоритма blast был произведен поиск гомологов указанных выше метилтрансфераз. Введенная команда:

blastp -db ORFs -query query_MTases.fasta -out align_MT -outfmt 7 -word_size 4

Выдача_blastp

Лучшая находка(вес 48.9, E-value 59e-06) - NC_012997.1_20256(выровнялось с P0AED9).

С помощью приведенной ниже команды была обнаружена строчка в файле с трансляциями, соответствующая данной находке, и выяснены ее координаты в геноме([4575447 - 4576604]).

grep 'NC_012997.1_20256' translated_out

Далее мной был создан промежуточный файл CDS.tsv, содержащий столбцы 4, 5(координаты), 7(цепь), 9(доп. информация) для кодирующих последовательностей локуса NC_012997.1 из таблицы локальных особенностей genomic.gff

grep 'NC_012997.1' ncbi_dataset/data/GCF_000023025.1/genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv

После этого к этим данным была добавлена исследуемая ORF с указанными геномными координатами, последовательности были отсортированы. После этого исследуемая ORF с соседними 3 CDS слева и справа были сохранены в файл neighbours.tsv

echo -e '4575447\t4576604\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbours.tsv

Было обнаружено пересечение находки со следующей CDS(хотя координаты немного не совпадают; приведена только часть характеристик):

[4575465-4576607], цепь +, ID=cds-WP_015820477.1, Parent=gene-TERTU_RS18350, go_function=DNA (cytosine-5-)-methyltransferase activity

Данный белок как раз-таки является цитозин-5-метилтрансферазой, что подтверждает его гомологию с P0AED9.

6)Поиск метилтрансфераз по аннотациям кодирующих участков генома

В завершение я провел поиск цитозин-5-метилтрансфераз в геноме Teridinibacter turnerae по аннотациям его кодирующих участков. Для этого использовалась следующая команда:

elink -id NC_012997.1 -db nuccore -target protein | efilter -query '2.1.1.37' | efetch -format fasta > class_out.fasta

Единственный результат: >WP_015820477.1 DNA cytosine methyltransferase [Teredinibacter turnerae]

Была найдена та же метилтрансфераза, что и в пункте 5.