Пракикум 9: EMBOSS, Entrez Direct, NCBI Datasets

Вводные по выполнению работы

  • Мой организм: Gordonia bronchialis DSM 43247 (бактерия)
  • Его протеом: UP000001219
  • Код для скачивания протеома:
  • wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001219) ' -O UP000001219.swiss.gz
  • Цель практикума: найти ДНК-метилтрансферазу в геноме бактерии Gordonia bronchialis DSM 43247 с использованием биоинформатических инструментов EMBOSS, EDirect, NCBI Datasets CLI и BLAST+.

Этап 1: Получение AC геномной сборки и TaxID организма

  • Идентификатор протеома: UP000001219
  • Ссылка на страницу в Proteomes: www.uniprot.org/proteomes/UP000001219
  • Код доступа сборки GenBank: GCA_000024785.1
  • Ссылка на страницу сборки в Genome: www.ncbi.nlm.nih.gov/datasets/genome/
  • Код доступа из RefSeq: GCF_000024785.1
  • Для дальнейшей работы использована версия RefSeq как лучше аннотированная


Этап 2: Скачивание последовательности генома и таблицы локальных особенностей

  • Команда для скачивания геномной сборки:
  • datasets download genome accession GCF_000024785.1 --include genome,gff3 --filename GCF_000024785.1.zip
  • Команда для распаковки архива:
  • unzip GCF_000024785.1.zip

Полученные файлы:

  • ncbi_dataset/data/GCF_000024785.1/GCF_000024785.1_ASM2478v1_genomic.fna - геномная последовательность
  • ncbi_dataset/data/GCF_000024785.1/genomic.gff - таблица локальных особенностей в формате GFF3
  • ncbi_dataset/data/assembly_data_report.jsonl - отчет о сборке
  • README.md; md5sum.txt; dataset_catalog.json - служебные файлы

Этап 3: Поиск и трансляция открытых рамок считывания

Определение генетического кода

  • Получение Taxonomy ID:
  • cat ncbi_dataset/data/assembly_data_report.jsonl | jq -r '.organism.taxId'
  • Результат: TaxID = 526226
  • Определение генетического кода:
  • efetch -db taxonomy -id 526226 -format xml > tax_info.xml grep -A 5 -B 5 "GeneticCode" tax_info.xml
  • Результат: GCId = 11 (Bacterial, Archaeal and Plant Plastid)

Поиск открытых рамок считывания

  • Команда getorf:
  • getorf -sequence ncbi_dataset/data/GCF_000024785.1/GCF_000024785.1_ASM2478v1_genomic.fna -out orf_translations.faa -find 0 -minsize 150 -table 11 -circular N

Параметры команды:

  • -find 0 - поиск ORF между стоп-кодонами
  • -minsize 150 - минимальная длина 150 нуклеотидов (50 аминокислот)
  • -table 11 - использование бактериального генетического кода
  • -circular N - линейная молекула ДНК

Проверка длины трансляций

  • Команда проверки:
  • infoseq -sequence orf_translations.faa -only -name -length -noheading 2>/dev/null | awk '$2 < 50'
  • Результат: последовательности короче 50 аминокислот не обнаружены

Создание белковой базы для BLAST

  • Команда создания базы:
  • makeblastdb -in orf_translations.faa -dbtype prot -out proteome -title "Gordonia_bronchialis_ORFs"
  • Результат: создана BLAST база proteome с 58915 последовательностями

Этап 4: Получение последовательностей гомологичных метилтрансфераз

  • Команда для скачивания эталонных последовательностей:
  • echo -e "sp:P0AED9\nsp:P0AEE8\nsp:P23941" > query_list.txt seqret query_list.txt -outseq query.fasta -auto

Загруженные белки:

  • P0AED9 (Dcm, m5C-метилтрансфераза, E.coli)
  • P0AEE8 (Dam, m6A-метилтрансфераза, E.coli)
  • P23941 (m4C-метилтрансфераза, Bacillus amyloliquefaciens)

Этап 5: Поиск по сходству последовательностей

  • Команда BLASTP:
  • blastp -query query.fasta -db proteome -outfmt 7 -out blast_results.txt
    • Анализ результатов:
    • BLASTP не обнаружил значимых гомологов между запросом и предсказанными ORF
    • Файл blast_results.txt содержит только заголовки без хитов
  • Дополнительная проверка через аннотацию:
  • grep -i "methyl" ncbi_dataset/data/GCF_000024785.1/genomic.gff
    • Результат: в геномной аннотации обнаружены многочисленные метилтрансферазы, включая:
    • DNA cytosine methyltransferases (GBRO_RS25035, GBRO_RS02625, GBRO_RS27690)
    • Restriction-modification methylases (GBRO_RS00180, GBRO_RS01725)
    • Class I SAM-dependent methyltransferases (множественные гены)

Вывод: метилтрансферазы Gordonia bronchialis слишком дивергентны от эталонных последовательностей E. coli и Bacillus для обнаружения методом BLASTP.


Этап 6: Поиск по аннотациям кодирующих участков

  • Команда поиска по EC-номерам:
  • esearch -db protein -query "Gordonia bronchialis[ORGN] AND (2.1.1.37[EC] OR 2.1.1.72[EC] OR 2.1.1.113[EC])" | efetch -format acc > methyltransferases_list.txt
    • Результаты поиска:
    • Найдено белков: 14
    • Аннотированные метилтрансферазы из genomic.gff (WP_012831984.1 и др.) отсутствуют в результатах поиска
  • Проверка пересечения координат:
  • grep "WP_012831984.1" ncbi_dataset/data/GCF_000024785.1/genomic.gff | awk -F'\t' '{print "Хромосома:", $1, "Начало:", $4, "Конец:", $5, "Странд:", $7}'
  • Результат: координаты гена WP_012831984.1 - NC_013441.1:35965-39963 (+)
  • Проверка наличия соответствующего ORF:
  • grep "^>" orf_translations.faa | head -5 grep ">NC_013441.1_3[0-9][0-9][0-9][0-9]_3[0-9][0-9][0-9][0-9]" orf_translations.faa
  • Результат: ORF, соответствующий аннотированному CDS, не обнаружен среди предсказанных открытых рамок считывания

Выводы

  • Геномные характеристики: Успешно получена геномная сборка Gordonia bronchialis DSM 43247 (GCF_000024785.1) с аннотацией.
  • Поиск ORF: Предсказано 58915 открытых рамок считывания с использованием бактериального генетического кода (таблица 11). Все трансляции длиннее 50 аминокислот.
  • Ограничения BLASTP: Поиск гомологов эталонных метилтрансфераз E. coli и Bacillus методом BLASTP не дал результатов из-за высокой дивергентности последовательностей.
  • Аннотированные метилтрансферазы: Анализ геномной аннотации выявил наличие множества функциональных метилтрансфераз в геноме Gordonia bronchialis.
  • Расхождение методов: Обнаружено несоответствие между аннотированными CDS и предсказанными ORF, что указывает на ограничения метода поиска ORF между стоп-кодонами для некоторых классов генов.
  • Эффективность поиска по EC-номерам: Поиск по ферментативным кодам выявил 14 метилтрансфераз, но не смог идентифицировать конкретные аннотированные гены, что может быть связано с неполнотой EC-классификации.

Placeholder

Практикум 6

Секвенирование по Сэнгеру

Тык

Placeholder

Практикум 7

Нуклеотидные банки данных

Тык

Placeholder

Практикум 8

Нуклеотидный BLAST

Тык