Justin Bieber

Практикум 9

EMBOSS, Entrez Direct, NCBI Datasets

Протеом бактерии
В 8 практикуме прошлого семестра мною был выбран и скачан протеом UP000000799. Основная задача данного практикума состоит в том, чтобы найти с помощью технических средств EMBOSS, EDirect, Datasets CLI ген(-ы) ДНК-метилтрансфераз в геномной сборке, соответствующей этому протеому.
Получение AC геномной сборки
- Страница сборки на UniProt Proteomes — Campylobacter jejuni subsp.
- Идентификатор протеома — UP000000799
- Код доступа геномной сборки из GenBank - GCA_000009085.1
- Идентификатор RefSeq - GCF_000009085.1
- NCBI Taxonomy ID - 192222
Скачивание последовательности генома и таблицы локальных особенностей
- datasets download genome accession GCF_000009085.1 --include gff3 --include genome
- unzip ncbi_dataset.zip
Поиск и трансляция открытых рамок считывания
- efetch -db 'taxonomy' -id '192222' -format 'xml' > tax.xml
- -db — база данных, в которых проводится поиск
- -id — TaxID бактерии
- -format — формат выходного файла (xml)
- getorf GCF_000009085.1_ASM908v1_genomic.fna trans.fasta -minsize 151 -table 11 -find 0
- GCF_000830845.1_ASM83084v1_genomic.fna – файл со скачанной нуклеотидной последовательностью генома
- trans.fasta – файл с искомыми открытыми рамками считывания
- -minsize 151 – минимальная длина ORF в нуклеотидах
- -table 11 – используем таблицу генетического кода №11
- -find 0 – искать ORF только между стоп-кодонами, игнорируя старт-кодон (чтобы не потерять фрагменты из-за неизвестного старт-кодона).
- infoseq trans.fasta | tail -n +2 | cut -f3 -d '-' | sort -n -k2,2
- infoseq trans.fasta – выводит таблицу с информацией о трансляциях
- tail -n +2 – пропускаем заголовок, берём только данные
- cut -f3 -d '-' – берём третий элемент, разделённый дефисом
- sort -n -k2,2 – сортируем по числовому значению второго поля, чтобы увидеть диапазоны длин ORF
- makeblastdb -in trans.fasta -dbtype 'prot'
- -dbtype 'prot' – указываем, что база белковая
Получение последовательностей гомологичных метилтрансфераз
- echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' > tr.txt
- seqret @tr.txt query.fasta
Поиск по сходству последовательностей
- blastp -task blastp -query query.fasta -db trans.fasta -out blast.out -outfmt 7
- blastp - программа из пакета BLAST+, которая сравнивает белковую последовательность (protein) с белковой базой данных
- -task blastp - тип алгоритма
- -query query.fasta - файл с запросными белковыми последовательностями
- -db trans.fasta - имя BLAST-базы данных (использует все файлы на выдаче)
- -out blast.out - файл, в который будет записан результат поиска
- -outfmt 7 - 7 табличный формат с комментариями
- grep '^>NC_002163.1_972' trans.fasta
- grep NC_002163.1 genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsv
- echo -e '581824\t584013\t+\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv
Поиск по аннотациям кодирующих участков
- elink -target protein -db nuccore -id NC_002163.1 | efilter -query '2.1.1.113' | efetch -format 'fasta'
- elink ищет связи между записями в разных базах данных NCBI.
- -target protein — указывает, что мы хотим найти связанные белки (Protein)
- -db nuccore — указывает исходную базу данных (нуклеотидные последовательности)
- efilter -query '2.1.1.113' - фильтрует результаты поиска
- efetch -format 'fasta' - получает данные из базы NCBI в fasta-формате

Добро пожаловать на учебный сайт Аркуша Вероники