Пракикум 9: EMBOSS, Entrez Direct, NCBI Datasets
Вводные по выполнению работы
- Мой организм: Gordonia bronchialis DSM 43247 (бактерия)
- Его протеом: UP000001219
- Код для скачивания протеома:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001219) ' -O UP000001219.swiss.gz- Цель практикума: найти ДНК-метилтрансферазу в геноме бактерии Gordonia bronchialis DSM 43247 с использованием биоинформатических инструментов EMBOSS, EDirect, NCBI Datasets CLI и BLAST+.
Этап 1: Получение AC геномной сборки и TaxID организма
- Идентификатор протеома: UP000001219
- Ссылка на страницу в Proteomes: www.uniprot.org/proteomes/UP000001219
- Код доступа сборки GenBank: GCA_000024785.1
- Ссылка на страницу сборки в Genome: www.ncbi.nlm.nih.gov/datasets/genome/
- Код доступа из RefSeq: GCF_000024785.1
Для дальнейшей работы использована версия RefSeq как лучше аннотированная
Этап 2: Скачивание последовательности генома и таблицы локальных особенностей
- Команда для скачивания геномной сборки:
- Команда для распаковки архива:
datasets download genome accession GCF_000024785.1 --include genome,gff3 --filename GCF_000024785.1.zip
unzip GCF_000024785.1.zip
Полученные файлы:
-
ncbi_dataset/data/GCF_000024785.1/GCF_000024785.1_ASM2478v1_genomic.fna- геномная последовательность -
ncbi_dataset/data/GCF_000024785.1/genomic.gff- таблица локальных особенностей в формате GFF3 -
ncbi_dataset/data/assembly_data_report.jsonl- отчет о сборке -
README.md;md5sum.txt;dataset_catalog.json- служебные файлы
Этап 3: Поиск и трансляция открытых рамок считывания
1. Определение генетического кода. TaxID организма (526226) был получен из файла assembly_data_report.jsonl. Информация о коде скачана через efetch.
efetch -db taxonomy -id 526226 -format xml > tax_info.xml- Анализ файла
tax_info.xmlпоказал использование стандартного бактериального генетического кода (GCId=11)
2. Поиск ORF и трансляция. С помощью getorf найдены все рамки между стоп-кодонами. Критически важным было указание параметра -circular Y, так как геном Gordonia bronchialis представлен кольцевой хромосомой и плазмидой. Поиск в линейном режиме привел бы к потере ORF, пересекающих условную точку начала сборки.
getorf -sequence ncbi_dataset/data/GCF_000024785.1/GCF_000024785.1_ASM2478v1_genomic.fna \ -out orf_translations.faa \ -find 0 \ -minsize 150 \ -table 11 \ -circular Y
Параметры команды:
-
-find 0- поиск ORF между стоп-кодонами -
-minsize 150- минимальная длина 150 нуклеотидов (50 аминокислот) -
-table 11- использование бактериального генетического кода -
-circular Y- кольцевая молекула ДНК
3. Проверка длины трансляций. Командой infoseq проверено отсутствие последовательностей короче 50 а.к.
infoseq -sequence orf_translations.faa -only -name -length -noheading 2>/dev/null | awk '$2 < 50'- Вывод пуст, что подтверждает корректность параметра
-minsize.
4. Создание базы для BLAST. Из полученных 58 915 трансляций создана белковая база proteome.
makeblastdb -in orf_translations.faa -dbtype prot -out proteome -title "Gordonia_bronchialis_ORFs"
Этап 4: Получение последовательностей гомологичных метилтрансфераз
Последовательности трёх эталонных метилтрансфераз из Swiss-Prot скачаны с помощью efetch из NCBI.
efetch -db protein -id P0AED9,P0AEE8,P23941 -format fasta > query.fasta
Файл query.fasta содержит:
- P0AED9 (Dcm, m5C-метилтрансфераза, E.coli)
- P0AEE8 (Dam, m6A-метилтрансфераза, E.coli)
- P23941 (m4C-метилтрансфераза, Bacillus amyloliquefaciens)
Этап 5: Поиск по сходству последовательностей
1. Поиск BLASTp. Для учета возможной высокой дивергенции поиск гомологов был запущен с ослабленным порогом значимости e-value. Параметр -max_target_seqs был увеличен согласно рекомендациям разработчиков BLAST для корректного ранжирования результатов.
blastp -query query.fasta -db proteome -out blast_results.txt -outfmt 7 -evalue 0.01 -max_target_seqs 10
2. Анализ результатов. Наилучший и статистически значимый хит (E-value = 5.91e-09) был обнаружен только для запроса P0AED9 (m5C-метилтрансфераза). Это указывает на наличие в геноме G. bronchialis именно цитозиновой метилтрансферазы, в то время как гомологи адениновой (m6A) и другой цитозиновой (m4C) метилтрансфераз в предсказанном протеоме либо отсутствуют, либо слишком дивергентны для обнаружения при заданных параметрах.
- Найденная ORF: NC_013442.1_306
- Параметры: E-value = 5.91e-09, Bit Score = 57.8.
- Координаты (из
orf_translations.faa): плазмида NC_013442.1, позиции 50131-52248, прямая цепь.
3. Поиск соседних аннотированных CDS. Для проверки, является ли предсказанная ORF реальным геном, было проведено сравнение её координат с официальной аннотацией.
grep -P '^NC_013442.1\t[^\t]+\tCDS\t' ncbi_dataset/data/GCF_000024785.1/genomic.gff | cut -f 1,4,5,7,9 > CDS.tsvecho -e "NC_013442.1\t50131\t52248\t+\tFOUND-ORF-m5C" | cat - CDS.tsv | sort -k1,1 -k2,2n | grep -B 2 -A 2 'FOUND-ORF-m5C' > neighbors.tsv
Этап 6: Поиск по аннотациям кодирующих участков
1. Поиск через EDirect. Для независимой проверки выполнен поиск в центральной базе NCBI Protein всех белков Gordonia bronchialis, аннотированных соответствующими EC-номерами.
esearch -db protein -query "Gordonia bronchialis[ORGN] AND (2.1.1.37[EC] OR 2.1.1.72[EC] OR 2.1.1.113[EC])" | efetch -format acc > methyltransferases_ec.txt- Результат: Найдено 14 белков.
2. Верификация и выявление несоответствий. Белок WP_012836505.1 (соответствующий нашей находке) отсутствует в полученном списке. Последующий запрос его метаданных показал, что в данной конкретной записи NCBI Protein поле EcNumber не заполнено, несмотря на четкую аннотацию в локальном файле геномной сборки (GFF).
echo "WP_012836505.1" | epost -db protein | efetch -format docsum | xtract -pattern DocumentSummary -element AccessionVersion Title EcNumber
Выводы
- Геномная характеристика: Успешно получена и аннотированная сборка генома Gordonia bronchialis (GCF_000024785.1).
- Находка метилтрансферазы: Методом поиска ORF и BLASTp по сходству последовательностей обнаружен гомолог m5C-метилтрансферазы (Dcm). Найденная рамка (NC_013442.1_306) соответствует аннотированному гену GBRO_RS25675 с функцией DNA cytosine methyltransferase, расположенному на плазмиде pGBRO01.
- Эффективность методов: Поиск по сходству последовательностей (BLASTp) оказался эффективным для обнаружения дивергентных генов даже при низком проценте идентичности (~23%), главным критерием являлось исключительно низкое E-value. Поиск по аннотациям через EC-номера в NCBI не обнаружил этот конкретный ген из-за неполноты функциональной разметки в центральной базе.
- Освоение инструментария: В ходе работы успешно применен комплекс биоинформатических инструментов (EMBOSS, EDirect, NCBI Datasets CLI, BLAST+), что позволило независимо проверить находку разными методами и проанализировать расхождения между ними.
Файлы
blast_results.txt— результаты BLASTp, на основании которых выбрана лучшая ORFneighbors.tsv— таблица соседних генов, подтверждающая перекрытие найденной ORF с аннотированным CDS.methyltransferases_ec.txt— список белков, найденных по EC-номерам на Этапе 6.CDS.tsv— основа для создания neighbors.tsv. Желательно приложить для проверки корректности команды.orf_translations.faa— файл с предсказанными белковыми последовательностями (основа базы proteome). Может быть запрошен для проверки.query.fasta— файл с эталонными последовательностями метилтрансфераз.