практикум 7 - третий семестр

работа с базами данных ncbi и ena

1. выбор организма и сборки

для этого практикума мной был выбран геном немодельного, но биологически и экологически значимого объекта - синего кита (balaenoptera musculus, blue whale), крупнейшего современного млекопитающего.

для дальнейшего анализа использована референсная хромосомная сборка mbalmus1.pri.v3 (genbank gca_009873245.3, refseq gcf_009873245.2), полученная в рамках проекта g10k‑vgp.

2. характеристики выбранной сборки

таблица 1. характеристики выбранной сборки генома синего кита (balaenoptera musculus)
параметр	значение
идентификатор genbank	gca_009873245.3 (mbalmus1.pri.v3)
идентификатор refseq	gcf_009873245.2 (mbalmus1.pri.v3)
уровень сборки генома	chromosome
общий размер генома (п.н.)	2,4·10⁹ п.н. (genome size 2.4 gb)
число фрагментов генома в сборке (scaffold)	105 scaffolds
contig n50	6,3 мб
contig l50	103
scaffold n50	110,3 мб
scaffold l50	9

таблица 1. основные количественные характеристики референсной хромосомной сборки генома синего кита mbalmus1.pri.v3 (gcf_009873245.2), включая её размер, степень фрагментации и статистики n50/l50.

пояснения:

contig - непрерывная последовательность днк, собранная из множества прочтений (reads) без внутренних гэпов.
scaffold - более крупный фрагмент генома, полученный объединением контигов с использованием дополнительной информации (парные/длинные чтения, hi‑c, оптические карты); внутри скаффолда возможны участки неизвестной последовательности, обозначенные n‑нуклеотидами.
n50 - длина наименьшего из самых длинных фрагментов (контигов или скаффолдов), которые вместе покрывают не менее 50% общей длины сборки.
l50 - минимальное количество самых длинных фрагментов, достаточное для покрытия не менее 50% длины сборки.

3. скачанные файлы для сборки

для дальнейшего практикума были скачаны три типа файлов с refseq-страницы сборки gcf_009873245.2 (опция refseq only в ncbi datasets):

нуклеотидные последовательности генома (fasta): gcf_009873245.2_mbalmus1.pri.v3_genomic.fna.gz.
последовательности белков (fasta): gcf_009873245.2_mbalmus1.pri.v3_protein.faa.gz.
геном с аннотацией (gbff): gcf_009873245.2_mbalmus1.pri.v3_genomic.gbff.gz.

из‑за большого размера генома (около 2,4 гб) суммарный объём этих файлов в сжатом виде составляет порядка 1,5-2 гб, поэтому загрузка и дальнейший анализ выполнялись на локальном компьютере, чтобы не превышать квоту дискового пространства на сервере kodomo.

4. поиск по слову insulin в ncbi nucleotide

для демонстрации работы расширенного поиска в базе ncbi nucleotide было использовано ключевое слово insulin в поле title, которое соответствует полю definition в записях genbank/refseq.

таблица 2. результаты поиска по слову insulin в ncbi nucleotide
запрос	условие	всего записей	genbank (insdc)	refseq	mrna	genomic dna/rna
insulin[title]	все организмы	46865	13415	33447	37629	4129
(insulin[title]) and "homo sapiens"[organism]	только человек	5608	5355	253	4092	1472
insulin[title] not receptor[title]	все организмы, без рецепторов	32328	10530	21796	25992	3063

исходный запрос insulin[title] дал 46865 записей, из которых 13415 относятся к архивной базе genbank (insdc), а 33447 - к курируемой базе refseq; большинство записей представлены как мрнк (37629), ещё 4129 записей описывают фрагменты геномной днк/рнк.

для ограничения поиска человеком запрос был уточнён до (insulin[title]) and "homo sapiens"[organism], что привело к 5608 записям, среди которых 5355 происходят из genbank и 253 - из refseq; 4092 записи относятся к типу mrna и 1472 - к genomic dna/rna.

при просмотре первых результатов оказалось, что значительная часть последовательностей относится к инсулиновым рецепторам и связанным белкам, а не к собственно гормону инсулину, поэтому был использован дополнительный фильтр insulin[title] not receptor[title]: по нему найдено 32328 записей (10530 из genbank и 21796 из refseq), включая 25992 мрнк и 3063 геномных фрагмента, что заметно уменьшает долю записей, посвящённых рецепторам.

5. поиск по слову insulin в ena

аналогичный поиск был выполнен в european nucleotide archive (ena) с использованием advanced search для базы nucleotide sequences. для человека применялись запросы:

tax_eq(9606) and description="insulin" and mol_type="mrna"
tax_eq(9606) and description="insulin" and mol_type="genomic dna"

где tax_eq(9606) задаёт таксон homo sapiens, поле description соответствует текстовому описанию записи, а параметр mol_type позволяет различать мрнк и геномную днк.

таблица 3. результаты поиска по слову insulin в ena (homo sapiens)
запрос ena	организм	тип молекулы	число записей
tax_eq(9606) and description="insulin" and mol_type="mrna"	homo sapiens	mrna	7185
tax_eq(9606) and description="insulin" and mol_type="genomic dna"	homo sapiens	genomic dna	157

по первому запросу было найдено 7185 записей мрнк, по второму - 157 записей геномной днк, содержащих слово insulin в описании.

6. краткое сравнение ncbi и ena

в ncbi расширенный поиск реализован через интерфейс advanced/search builder, где основные поля (title, organism и т.п.) выбираются из списка, но в запросах нельзя использовать маски со звёздочкой; при этом ncbi одновременно даёт доступ к архивной базе genbank и к курируемой refseq с отдельными фильтрами.

интерфейс advanced search ena менее интуитивен, однако позволяет явно задавать таксон через tax_eq(9606), искать по полю description и использовать маски и параметр mol_type для разделения мрнк и геномной днк; в ena нет отдельной refseq, и его содержание в основном соответствует архивным записям genbank.