работа с базами данных ncbi и ena
1. выбор организма и сборки
для этого практикума мной был выбран геном немодельного, но биологически и экологически значимого объекта - синего кита (balaenoptera musculus, blue whale), крупнейшего современного млекопитающего.
для дальнейшего анализа использована референсная хромосомная сборка mbalmus1.pri.v3 (genbank gca_009873245.3, refseq gcf_009873245.2), полученная в рамках проекта g10k‑vgp.
2. характеристики выбранной сборки
| параметр | значение |
|---|---|
| идентификатор genbank | gca_009873245.3 (mbalmus1.pri.v3) |
| идентификатор refseq | gcf_009873245.2 (mbalmus1.pri.v3) |
| уровень сборки генома | chromosome |
| общий размер генома (п.н.) | 2,4·10⁹ п.н. (genome size 2.4 gb) |
| число фрагментов генома в сборке (scaffold) | 105 scaffolds |
| contig n50 | 6,3 мб |
| contig l50 | 103 |
| scaffold n50 | 110,3 мб |
| scaffold l50 | 9 |
таблица 1. основные количественные характеристики референсной хромосомной сборки генома синего кита mbalmus1.pri.v3 (gcf_009873245.2), включая её размер, степень фрагментации и статистики n50/l50.
пояснения:
- contig - непрерывная последовательность днк, собранная из множества прочтений (reads) без внутренних гэпов.
- scaffold - более крупный фрагмент генома, полученный объединением контигов с использованием дополнительной информации (парные/длинные чтения, hi‑c, оптические карты); внутри скаффолда возможны участки неизвестной последовательности, обозначенные n‑нуклеотидами.
- n50 - длина наименьшего из самых длинных фрагментов (контигов или скаффолдов), которые вместе покрывают не менее 50% общей длины сборки.
- l50 - минимальное количество самых длинных фрагментов, достаточное для покрытия не менее 50% длины сборки.
3. скачанные файлы для сборки
для дальнейшего практикума были скачаны три типа файлов с refseq-страницы сборки gcf_009873245.2 (опция refseq only в ncbi datasets):
- нуклеотидные последовательности генома (fasta): gcf_009873245.2_mbalmus1.pri.v3_genomic.fna.gz.
- последовательности белков (fasta): gcf_009873245.2_mbalmus1.pri.v3_protein.faa.gz.
- геном с аннотацией (gbff): gcf_009873245.2_mbalmus1.pri.v3_genomic.gbff.gz.
из‑за большого размера генома (около 2,4 гб) суммарный объём этих файлов в сжатом виде составляет порядка 1,5-2 гб, поэтому загрузка и дальнейший анализ выполнялись на локальном компьютере, чтобы не превышать квоту дискового пространства на сервере kodomo.
4. поиск по слову insulin в ncbi nucleotide
для демонстрации работы расширенного поиска в базе ncbi nucleotide было использовано ключевое слово insulin в поле title, которое соответствует полю definition в записях genbank/refseq.
| запрос | условие | всего записей | genbank (insdc) | refseq | mrna | genomic dna/rna |
|---|---|---|---|---|---|---|
| insulin[title] | все организмы | 46865 | 13415 | 33447 | 37629 | 4129 |
| (insulin[title]) and "homo sapiens"[organism] | только человек | 5608 | 5355 | 253 | 4092 | 1472 |
| insulin[title] not receptor[title] | все организмы, без рецепторов | 32328 | 10530 | 21796 | 25992 | 3063 |
исходный запрос insulin[title] дал 46865 записей, из которых 13415 относятся к архивной базе genbank (insdc), а 33447 - к курируемой базе refseq; большинство записей представлены как мрнк (37629), ещё 4129 записей описывают фрагменты геномной днк/рнк.
для ограничения поиска человеком запрос был уточнён до (insulin[title]) and "homo sapiens"[organism], что привело к 5608 записям, среди которых 5355 происходят из genbank и 253 - из refseq; 4092 записи относятся к типу mrna и 1472 - к genomic dna/rna.
при просмотре первых результатов оказалось, что значительная часть последовательностей относится к инсулиновым рецепторам и связанным белкам, а не к собственно гормону инсулину, поэтому был использован дополнительный фильтр insulin[title] not receptor[title]: по нему найдено 32328 записей (10530 из genbank и 21796 из refseq), включая 25992 мрнк и 3063 геномных фрагмента, что заметно уменьшает долю записей, посвящённых рецепторам.
5. поиск по слову insulin в ena
аналогичный поиск был выполнен в european nucleotide archive (ena) с использованием advanced search для базы nucleotide sequences. для человека применялись запросы:
- tax_eq(9606) and description="insulin" and mol_type="mrna"
- tax_eq(9606) and description="insulin" and mol_type="genomic dna"
где tax_eq(9606) задаёт таксон homo sapiens, поле description соответствует текстовому описанию записи, а параметр mol_type позволяет различать мрнк и геномную днк.
| запрос ena | организм | тип молекулы | число записей |
|---|---|---|---|
| tax_eq(9606) and description="insulin" and mol_type="mrna" | homo sapiens | mrna | 7185 |
| tax_eq(9606) and description="insulin" and mol_type="genomic dna" | homo sapiens | genomic dna | 157 |
по первому запросу было найдено 7185 записей мрнк, по второму - 157 записей геномной днк, содержащих слово insulin в описании.
6. краткое сравнение ncbi и ena
в ncbi расширенный поиск реализован через интерфейс advanced/search builder, где основные поля (title, organism и т.п.) выбираются из списка, но в запросах нельзя использовать маски со звёздочкой; при этом ncbi одновременно даёт доступ к архивной базе genbank и к курируемой refseq с отдельными фильтрами.
интерфейс advanced search ena менее интуитивен, однако позволяет явно задавать таксон через tax_eq(9606), искать по полю description и использовать маски и параметр mol_type для разделения мрнк и геномной днк; в ena нет отдельной refseq, и его содержание в основном соответствует архивным записям genbank.