Практикум 9

В этом практикуме была найдена одна ДНК-метилтрансфераза в геноме бактерии (Vibrio cholerae) по последовательности и по анотацит с помощью средств EMBOSS, EDirect, NCBI Datasets CLI и blast+.

Задание 0

Прокариотический геном, который я использавала в практикуме 8 второго семестра: Vibrio cholerae serotype O1 (strain ATCC 39315 / El Tor Inaba N16961)
Proteome ID: UP000000584

Чтобы скопировать файл в формате swiss, полученный во втором семестре, я использовала команду:

cp ~/term2/pr8/UP000000584.swiss.gz ~/term3/pr9

Задание 1

Заданиие: получить AC геномной сборки и TaxID организма.

Индификатор протеома: UP000000584
Ссылка на страницу: UniProt Proteomes.

Код доступа геномной сборки из GenBank: GCA_000006745.1
Ссылка на страницу: NCBI Assembly (Datasets Genome).

Код доступа геномной сборки из RefSeq: GCF_000006745.1

TaxID организма, используемого в практукуме: 243277

Задание 2

Задание: скачать последовательности генома и таблицы локальных особенностей.

Чтобы скачать последовательности генома и таблицу локальных особенностей была использована команда:

datasets download genome accession GCF_000006745.1 --include genome,gff3 --filename ~/term3/pr9/GCF_000006745_1_ncbi_dataset.zip

В команде --include genome,gff3 — опция для указания на необходимый формат, --filename — опция указывающая имя и путь для скаченного файла.

Для удобства все последующие команды выполнялись в папке term3/pr9.

Команда для распоковки архива:

unzip GCF_000006745_1_ncbi_dataset.zip

Для удобства все разархивированные файлы были перенесены из папки ncbi_dataset/data в папку pr9 командой:

mv ncbi_dataset/data/* .

Папка ncbi_dataset была удалена командой:

rm -r ncbi_dataset

Задание 3

Задание: найти и оттранслировать открытые рамки считывания.

Прежде чем искать открытые рамки считывания, был определён вариант генетического кода организма с помощью команды:

efetch -db taxonomy -id 243277 -format xml

В полученном тексте была строка "<GCId>11</GCId>", из чего следует, что Vibrio cholerae использует самую частую таблицу №11 генетического кода.

Чтобы найти открытые рамки считывания и сразу получить их трансляции между стоп-кодонами (является опцией по умолчанию), использовалась команда:

getorf -sequence GCF_000006745.1/GCF_000006745.1_ASM674v1_genomic.fna -outseq GCF_000006745_1_translations.fasta -table 11 -minsize 150

На всякий случай была проведена проверка длины полученных трансляций (должны быть не короче 50 а.о.) с помощью конвеера:

infoseq -sequence GCF_000006745_1_translations.fasta -only -length|sort -n|uniq|less

Конвейер выдаёт столбец с длинами транскриптов, отсортированных по убыванию. В результате первое число было 50 (оно минимальное из всех) значит, всё хорошо.

Далее по этим последовательностям была сделана белковая база данных с помощью команды:

makeblastdb -in GCF_000006745_1_translations.fasta -dbtype prot -out proteome

Задание 4

Задание: получить последовательности гомологичных метилтрансфераз.

Коды доступа в базе Swiss-Prot, по которым был проведен поиск по сходству последовательностей, для нахождения ДНК-метилтрансфераз: P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli) и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).

Конвейер для скачивания белковых последовательностей из Swiss-Prot:

echo -e "sw:P0AED9\nsw:P0AEE8\nsw:P23941"|seqret -filter -sequence @stdin -outseq query.fasta

Задание 5

Задание: найти гомолог по сходству последовательности.

Поиск был осуществлён с помощью команды:

blastp -query query.fasta -db proteome -outfmt 7  -out blastp_res.out

Результат выполнения: blastp_res.out

Идентификатор лучшей находки по весу — NC_002505.1_11536 (bit score — 361), которая гомологична m6A-МТазе E.coli. Её координаты в геноме: 2797745 - 2796915, получены с помощью команды:

grep 'NC_002505.1_11536' < GCF_000006745_1_translations.fasta

Чтобы позже найти CDS из таблицы локальных особенностей, находящиеся рядом с найденной открытой рамкой считывания, была создана таблица с нужными строками и столбцами (та же геномная последовательность, столбцы с координатами, цепью и доп. информацией) с помощью конвейера:

grep '^NC_002505.1' GCF_000006745.1/genomic.gff|cut -f 4-5,7,9|grep 'CDS'|cut -f 2-4 > CDS.tsv

Потом был произвёден поиск близких по координатам последовательностей с помощью команды:

echo -e '2796915\t2797745\t-\tFOUND-ORF'|cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv

Результат выполнения: neighbors.tsv.

Из таблицы видно, что наиболее близкая рамка с координатами 2796912-2797745 и идентификатором WP_000744680.1 в дополнительной информации имеет продукт Dam family site-specific DNA-(adenine-N6)-methyltransferase. Координаты CDS и ORF почти полностью совпадают, кроме первых трёх нуклеотидов. Это объясняется тем, что ORF начинается со стоп-кодона (по способу трансляции). Получается, что ORF практически совпадает с последовательностью CDS (по локализации, продукту), а значит можно с уверенностью сказать, что найденный ORF является аннотированной CDS (WP_000744680.1).

Задание 6

Задание: найти гомолог по аннотации кодирующих участков.

Чтобы провести поиск по аннотации, использовалась команда:

elink -db nuccor -id 'NC_002505.1' -target protein|efilter -querty '2.1.1.72'|efetch acc>annot_res.out

Результат выполнения: annot_res.out.

Был найден только один белок с идентификатором WP_000744680.1, тот же, что и был найден по сходству последовательности.