Пракикум 9: EMBOSS, Entrez Direct, NCBI Datasets

Вводные по выполнению работы

  • Мой организм: Gordonia bronchialis DSM 43247 (бактерия)
  • Его протеом: UP000001219
  • Код для скачивания протеома:
  • wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001219) ' -O UP000001219.swiss.gz
  • Цель практикума: найти ДНК-метилтрансферазу в геноме бактерии Gordonia bronchialis DSM 43247 с использованием биоинформатических инструментов EMBOSS, EDirect, NCBI Datasets CLI и BLAST+.

Этап 1: Получение AC геномной сборки и TaxID организма

  • Идентификатор протеома: UP000001219
  • Ссылка на страницу в Proteomes: www.uniprot.org/proteomes/UP000001219
  • Код доступа сборки GenBank: GCA_000024785.1
  • Ссылка на страницу сборки в Genome: www.ncbi.nlm.nih.gov/datasets/genome/
  • Код доступа из RefSeq: GCF_000024785.1
  • Для дальнейшей работы использована версия RefSeq как лучше аннотированная


Этап 2: Скачивание последовательности генома и таблицы локальных особенностей

  • Команда для скачивания геномной сборки:
  • datasets download genome accession GCF_000024785.1 --include genome,gff3 --filename GCF_000024785.1.zip
  • Команда для распаковки архива:
  • unzip GCF_000024785.1.zip

Полученные файлы:

  • ncbi_dataset/data/GCF_000024785.1/GCF_000024785.1_ASM2478v1_genomic.fna - геномная последовательность
  • ncbi_dataset/data/GCF_000024785.1/genomic.gff - таблица локальных особенностей в формате GFF3
  • ncbi_dataset/data/assembly_data_report.jsonl - отчет о сборке
  • README.md; md5sum.txt; dataset_catalog.json - служебные файлы

Этап 3: Поиск и трансляция открытых рамок считывания

1. Определение генетического кода. TaxID организма (526226) был получен из файла assembly_data_report.jsonl. Информация о коде скачана через efetch.

  • efetch -db taxonomy -id 526226 -format xml > tax_info.xml
  • Анализ файла tax_info.xml показал использование стандартного бактериального генетического кода (GCId=11)

2. Поиск ORF и трансляция. С помощью getorf найдены все рамки между стоп-кодонами. Критически важным было указание параметра -circular Y, так как геном Gordonia bronchialis представлен кольцевой хромосомой и плазмидой. Поиск в линейном режиме привел бы к потере ORF, пересекающих условную точку начала сборки.

  • getorf -sequence ncbi_dataset/data/GCF_000024785.1/GCF_000024785.1_ASM2478v1_genomic.fna \ -out orf_translations.faa \ -find 0 \ -minsize 150 \ -table 11 \ -circular Y

Параметры команды:

  • -find 0 - поиск ORF между стоп-кодонами
  • -minsize 150 - минимальная длина 150 нуклеотидов (50 аминокислот)
  • -table 11 - использование бактериального генетического кода
  • -circular Y - кольцевая молекула ДНК

3. Проверка длины трансляций. Командой infoseq проверено отсутствие последовательностей короче 50 а.к.

  • infoseq -sequence orf_translations.faa -only -name -length -noheading 2>/dev/null | awk '$2 < 50'
  • Вывод пуст, что подтверждает корректность параметра -minsize.

4. Создание базы для BLAST. Из полученных 58 915 трансляций создана белковая база proteome.

  • makeblastdb -in orf_translations.faa -dbtype prot -out proteome -title "Gordonia_bronchialis_ORFs"

Этап 4: Получение последовательностей гомологичных метилтрансфераз

Последовательности трёх эталонных метилтрансфераз из Swiss-Prot скачаны с помощью efetch из NCBI.

  • efetch -db protein -id P0AED9,P0AEE8,P23941 -format fasta > query.fasta

Файл query.fasta содержит:

  • P0AED9 (Dcm, m5C-метилтрансфераза, E.coli)
  • P0AEE8 (Dam, m6A-метилтрансфераза, E.coli)
  • P23941 (m4C-метилтрансфераза, Bacillus amyloliquefaciens)

Этап 5: Поиск по сходству последовательностей

1. Поиск BLASTp. Для учета возможной высокой дивергенции поиск гомологов был запущен с ослабленным порогом значимости e-value. Параметр -max_target_seqs был увеличен согласно рекомендациям разработчиков BLAST для корректного ранжирования результатов.

  • blastp -query query.fasta -db proteome -out blast_results.txt -outfmt 7 -evalue 0.01 -max_target_seqs 10

2. Анализ результатов. Наилучший и статистически значимый хит (E-value = 5.91e-09) был обнаружен только для запроса P0AED9 (m5C-метилтрансфераза). Это указывает на наличие в геноме G. bronchialis именно цитозиновой метилтрансферазы, в то время как гомологи адениновой (m6A) и другой цитозиновой (m4C) метилтрансфераз в предсказанном протеоме либо отсутствуют, либо слишком дивергентны для обнаружения при заданных параметрах.

  • Найденная ORF: NC_013442.1_306
  • Параметры: E-value = 5.91e-09, Bit Score = 57.8.
  • Координаты (из orf_translations.faa): плазмида NC_013442.1, позиции 50131-52248, прямая цепь.

3. Поиск соседних аннотированных CDS. Для проверки, является ли предсказанная ORF реальным геном, было проведено сравнение её координат с официальной аннотацией.

  • grep -P '^NC_013442.1\t[^\t]+\tCDS\t' ncbi_dataset/data/GCF_000024785.1/genomic.gff | cut -f 1,4,5,7,9 > CDS.tsv
  • echo -e "NC_013442.1\t50131\t52248\t+\tFOUND-ORF-m5C" | cat - CDS.tsv | sort -k1,1 -k2,2n | grep -B 2 -A 2 'FOUND-ORF-m5C' > neighbors.tsv

Этап 6: Поиск по аннотациям кодирующих участков

1. Поиск через EDirect. Для независимой проверки выполнен поиск в центральной базе NCBI Protein всех белков Gordonia bronchialis, аннотированных соответствующими EC-номерами.

  • esearch -db protein -query "Gordonia bronchialis[ORGN] AND (2.1.1.37[EC] OR 2.1.1.72[EC] OR 2.1.1.113[EC])" | efetch -format acc > methyltransferases_ec.txt
  • Результат: Найдено 14 белков.

2. Верификация и выявление несоответствий. Белок WP_012836505.1 (соответствующий нашей находке) отсутствует в полученном списке. Последующий запрос его метаданных показал, что в данной конкретной записи NCBI Protein поле EcNumber не заполнено, несмотря на четкую аннотацию в локальном файле геномной сборки (GFF).

  • echo "WP_012836505.1" | epost -db protein | efetch -format docsum | xtract -pattern DocumentSummary -element AccessionVersion Title EcNumber

Выводы

  • Геномная характеристика: Успешно получена и аннотированная сборка генома Gordonia bronchialis (GCF_000024785.1).
  • Находка метилтрансферазы: Методом поиска ORF и BLASTp по сходству последовательностей обнаружен гомолог m5C-метилтрансферазы (Dcm). Найденная рамка (NC_013442.1_306) соответствует аннотированному гену GBRO_RS25675 с функцией DNA cytosine methyltransferase, расположенному на плазмиде pGBRO01.
  • Эффективность методов: Поиск по сходству последовательностей (BLASTp) оказался эффективным для обнаружения дивергентных генов даже при низком проценте идентичности (~23%), главным критерием являлось исключительно низкое E-value. Поиск по аннотациям через EC-номера в NCBI не обнаружил этот конкретный ген из-за неполноты функциональной разметки в центральной базе.
  • Освоение инструментария: В ходе работы успешно применен комплекс биоинформатических инструментов (EMBOSS, EDirect, NCBI Datasets CLI, BLAST+), что позволило независимо проверить находку разными методами и проанализировать расхождения между ними.

Файлы

  • blast_results.txt — результаты BLASTp, на основании которых выбрана лучшая ORF
  • neighbors.tsv — таблица соседних генов, подтверждающая перекрытие найденной ORF с аннотированным CDS.
  • methyltransferases_ec.txt — список белков, найденных по EC-номерам на Этапе 6.
  • CDS.tsv — основа для создания neighbors.tsv. Желательно приложить для проверки корректности команды.
  • orf_translations.faa — файл с предсказанными белковыми последовательностями (основа базы proteome). Может быть запрошен для проверки.
  • query.fasta — файл с эталонными последовательностями метилтрансфераз.

Placeholder

Практикум 6

Секвенирование по Сэнгеру

Тык

Placeholder

Практикум 7

Нуклеотидные банки данных

Тык

Placeholder

Практикум 8

Нуклеотидный BLAST

Тык