Пракикум 9: EMBOSS, Entrez Direct, NCBI Datasets
Вводные по выполнению работы
- Мой организм: Gordonia bronchialis DSM 43247 (бактерия)
- Его протеом: UP000001219
- Код для скачивания протеома:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001219) ' -O UP000001219.swiss.gz- Цель практикума: найти ДНК-метилтрансферазу в геноме бактерии Gordonia bronchialis DSM 43247 с использованием биоинформатических инструментов EMBOSS, EDirect, NCBI Datasets CLI и BLAST+.
Этап 1: Получение AC геномной сборки и TaxID организма
- Идентификатор протеома: UP000001219
- Ссылка на страницу в Proteomes: www.uniprot.org/proteomes/UP000001219
- Код доступа сборки GenBank: GCA_000024785.1
- Ссылка на страницу сборки в Genome: www.ncbi.nlm.nih.gov/datasets/genome/
- Код доступа из RefSeq: GCF_000024785.1
Для дальнейшей работы использована версия RefSeq как лучше аннотированная
Этап 2: Скачивание последовательности генома и таблицы локальных особенностей
- Команда для скачивания геномной сборки:
- Команда для распаковки архива:
datasets download genome accession GCF_000024785.1 --include genome,gff3 --filename GCF_000024785.1.zip
unzip GCF_000024785.1.zip
Полученные файлы:
-
ncbi_dataset/data/GCF_000024785.1/GCF_000024785.1_ASM2478v1_genomic.fna- геномная последовательность -
ncbi_dataset/data/GCF_000024785.1/genomic.gff- таблица локальных особенностей в формате GFF3 -
ncbi_dataset/data/assembly_data_report.jsonl- отчет о сборке -
README.md;md5sum.txt;dataset_catalog.json- служебные файлы
Этап 3: Поиск и трансляция открытых рамок считывания
Определение генетического кода
- Получение Taxonomy ID:
- Результат: TaxID = 526226
- Определение генетического кода:
- Результат: GCId = 11 (Bacterial, Archaeal and Plant Plastid)
cat ncbi_dataset/data/assembly_data_report.jsonl | jq -r '.organism.taxId'
efetch -db taxonomy -id 526226 -format xml > tax_info.xml
grep -A 5 -B 5 "GeneticCode" tax_info.xml
Поиск открытых рамок считывания
- Команда getorf:
getorf -sequence ncbi_dataset/data/GCF_000024785.1/GCF_000024785.1_ASM2478v1_genomic.fna -out orf_translations.faa -find 0 -minsize 150 -table 11 -circular NПараметры команды:
-
-find 0- поиск ORF между стоп-кодонами -
-minsize 150- минимальная длина 150 нуклеотидов (50 аминокислот) -
-table 11- использование бактериального генетического кода -
-circular N- линейная молекула ДНК
Проверка длины трансляций
- Команда проверки:
- Результат: последовательности короче 50 аминокислот не обнаружены
infoseq -sequence orf_translations.faa -only -name -length -noheading 2>/dev/null | awk '$2 < 50'
Создание белковой базы для BLAST
- Команда создания базы:
- Результат: создана BLAST база
proteomeс 58915 последовательностями
makeblastdb -in orf_translations.faa -dbtype prot -out proteome -title "Gordonia_bronchialis_ORFs"
Этап 4: Получение последовательностей гомологичных метилтрансфераз
- Команда для скачивания эталонных последовательностей:
echo -e "sp:P0AED9\nsp:P0AEE8\nsp:P23941" > query_list.txt
seqret query_list.txt -outseq query.fasta -auto
Загруженные белки:
- P0AED9 (Dcm, m5C-метилтрансфераза, E.coli)
- P0AEE8 (Dam, m6A-метилтрансфераза, E.coli)
- P23941 (m4C-метилтрансфераза, Bacillus amyloliquefaciens)
Этап 5: Поиск по сходству последовательностей
- Команда BLASTP:
- Анализ результатов:
- BLASTP не обнаружил значимых гомологов между запросом и предсказанными ORF
- Файл
blast_results.txtсодержит только заголовки без хитов
blastp -query query.fasta -db proteome -outfmt 7 -out blast_results.txt
grep -i "methyl" ncbi_dataset/data/GCF_000024785.1/genomic.gff
- Результат: в геномной аннотации обнаружены многочисленные метилтрансферазы, включая:
Вывод: метилтрансферазы Gordonia bronchialis слишком дивергентны от эталонных последовательностей E. coli и Bacillus для обнаружения методом BLASTP.
Этап 6: Поиск по аннотациям кодирующих участков
- Команда поиска по EC-номерам:
- Результаты поиска:
- Найдено белков: 14
- Аннотированные метилтрансферазы из genomic.gff (WP_012831984.1 и др.) отсутствуют в результатах поиска
esearch -db protein -query "Gordonia bronchialis[ORGN] AND (2.1.1.37[EC] OR 2.1.1.72[EC] OR 2.1.1.113[EC])" | efetch -format acc > methyltransferases_list.txt
grep "WP_012831984.1" ncbi_dataset/data/GCF_000024785.1/genomic.gff | awk -F'\t' '{print "Хромосома:", $1, "Начало:", $4, "Конец:", $5, "Странд:", $7}'
grep "^>" orf_translations.faa | head -5
grep ">NC_013441.1_3[0-9][0-9][0-9][0-9]_3[0-9][0-9][0-9][0-9]" orf_translations.faa
Выводы
- Геномные характеристики: Успешно получена геномная сборка Gordonia bronchialis DSM 43247 (GCF_000024785.1) с аннотацией.
- Поиск ORF: Предсказано 58915 открытых рамок считывания с использованием бактериального генетического кода (таблица 11). Все трансляции длиннее 50 аминокислот.
- Ограничения BLASTP: Поиск гомологов эталонных метилтрансфераз E. coli и Bacillus методом BLASTP не дал результатов из-за высокой дивергентности последовательностей.
- Аннотированные метилтрансферазы: Анализ геномной аннотации выявил наличие множества функциональных метилтрансфераз в геноме Gordonia bronchialis.
- Расхождение методов: Обнаружено несоответствие между аннотированными CDS и предсказанными ORF, что указывает на ограничения метода поиска ORF между стоп-кодонами для некоторых классов генов.
- Эффективность поиска по EC-номерам: Поиск по ферментативным кодам выявил 14 метилтрансфераз, но не смог идентифицировать конкретные аннотированные гены, что может быть связано с неполнотой EC-классификации.