учебная страничка Маши Смирновой

работа с базами данных ncbi и ena

1. выбор организма и сборки

для этого практикума мной был выбран геном немодельного, но биологически и экологически значимого объекта - синего кита (balaenoptera musculus, blue whale), крупнейшего современного млекопитающего.

для дальнейшего анализа использована референсная хромосомная сборка mbalmus1.pri.v3 (genbank gca_009873245.3, refseq gcf_009873245.2), полученная в рамках проекта g10k‑vgp.

2. характеристики выбранной сборки

таблица 1. характеристики выбранной сборки генома синего кита (balaenoptera musculus)
параметр значение
идентификатор genbank gca_009873245.3 (mbalmus1.pri.v3)
идентификатор refseq gcf_009873245.2 (mbalmus1.pri.v3)
уровень сборки генома chromosome
общий размер генома (п.н.) 2,4·10⁹ п.н. (genome size 2.4 gb)
число фрагментов генома в сборке (scaffold) 105 scaffolds
contig n50 6,3 мб
contig l50 103
scaffold n50 110,3 мб
scaffold l50 9

таблица 1. основные количественные характеристики референсной хромосомной сборки генома синего кита mbalmus1.pri.v3 (gcf_009873245.2), включая её размер, степень фрагментации и статистики n50/l50.

пояснения:

3. скачанные файлы для сборки

для дальнейшего практикума были скачаны три типа файлов с refseq-страницы сборки gcf_009873245.2 (опция refseq only в ncbi datasets):

из‑за большого размера генома (около 2,4 гб) суммарный объём этих файлов в сжатом виде составляет порядка 1,5-2 гб, поэтому загрузка и дальнейший анализ выполнялись на локальном компьютере, чтобы не превышать квоту дискового пространства на сервере kodomo.

4. поиск по слову insulin в ncbi nucleotide

для демонстрации работы расширенного поиска в базе ncbi nucleotide было использовано ключевое слово insulin в поле title, которое соответствует полю definition в записях genbank/refseq.

таблица 2. результаты поиска по слову insulin в ncbi nucleotide
запрос условие всего записей genbank (insdc) refseq mrna genomic dna/rna
insulin[title] все организмы 46865 13415 33447 37629 4129
(insulin[title]) and "homo sapiens"[organism] только человек 5608 5355 253 4092 1472
insulin[title] not receptor[title] все организмы, без рецепторов 32328 10530 21796 25992 3063

исходный запрос insulin[title] дал 46865 записей, из которых 13415 относятся к архивной базе genbank (insdc), а 33447 - к курируемой базе refseq; большинство записей представлены как мрнк (37629), ещё 4129 записей описывают фрагменты геномной днк/рнк.

для ограничения поиска человеком запрос был уточнён до (insulin[title]) and "homo sapiens"[organism], что привело к 5608 записям, среди которых 5355 происходят из genbank и 253 - из refseq; 4092 записи относятся к типу mrna и 1472 - к genomic dna/rna.

при просмотре первых результатов оказалось, что значительная часть последовательностей относится к инсулиновым рецепторам и связанным белкам, а не к собственно гормону инсулину, поэтому был использован дополнительный фильтр insulin[title] not receptor[title]: по нему найдено 32328 записей (10530 из genbank и 21796 из refseq), включая 25992 мрнк и 3063 геномных фрагмента, что заметно уменьшает долю записей, посвящённых рецепторам.

5. поиск по слову insulin в ena

аналогичный поиск был выполнен в european nucleotide archive (ena) с использованием advanced search для базы nucleotide sequences. для человека применялись запросы:

где tax_eq(9606) задаёт таксон homo sapiens, поле description соответствует текстовому описанию записи, а параметр mol_type позволяет различать мрнк и геномную днк.

таблица 3. результаты поиска по слову insulin в ena (homo sapiens)
запрос ena организм тип молекулы число записей
tax_eq(9606) and description="insulin" and mol_type="mrna" homo sapiens mrna 7185
tax_eq(9606) and description="insulin" and mol_type="genomic dna" homo sapiens genomic dna 157

по первому запросу было найдено 7185 записей мрнк, по второму - 157 записей геномной днк, содержащих слово insulin в описании.

6. краткое сравнение ncbi и ena

в ncbi расширенный поиск реализован через интерфейс advanced/search builder, где основные поля (title, organism и т.п.) выбираются из списка, но в запросах нельзя использовать маски со звёздочкой; при этом ncbi одновременно даёт доступ к архивной базе genbank и к курируемой refseq с отдельными фильтрами.

интерфейс advanced search ena менее интуитивен, однако позволяет явно задавать таксон через tax_eq(9606), искать по полю description и использовать маски и параметр mol_type для разделения мрнк и геномной днк; в ena нет отдельной refseq, и его содержание в основном соответствует архивным записям genbank.