1. Выбор эукариота и сборки его геномa

Всего по запросу Vulpes vulpes (red fox) в NCBI Datasets нашлось 20 сборок генома. С помощью фильтрации “Reference genomes”, “Annotated genomes”, “Assembly level” - Chromosome/Complete, нашлась 1 референсная сборка (март, 2025), которая будет использоваться в дальнейшей работе - VulVul3. Гаплоидный набор лисы содержит 17 хромосом (16 аутосом и половую хромосому X или Y). Интересно, что лиса, сборка генома которой сейчас является референсной, была поймана в 2008 году в Новосибирске.

Обыкновенная лисица (Vulpes vulpes) — хищное млекопитающее семейства псовых. Ареал охватывает почти всю Европу, Азию (кроме юго-восточных тропиков), Северную Америку и частично Северную Африку, что делает вид одним из самых распространённых наземных хищников. Исследования, проведённые в Чешском университете естественных наук, показали, что лисицы способны использовать магнитное поле для калибровки расстояния до добычи, особенно при атаке на скрытые под снегом или растительностью объекты.

2. Характеристики сборки генома Vulpes vulpes

Таблица 1. Сборка генома VulVul3
Характеристика Значение
Идентификатор GenBank GCA_048418805.1
Идентификатор RefSeq GCF_048418805.1
Уровень сборки генома Chromosome
Общий размер генома 2.4 Gb
Число фрагментов генома в сборке 289
N50 для скэффолдов 140 Mb
L50 для скэффолдов 8
N50 для контигов 55.7 Mb
L50 для контигов 13

N50 — это длина самой короткой последовательности в наборе контигов/скэффолдов, покрывающий в сумме не менее 50% генома.

L50 — это минимальное количество самых длинных контигов/скэффолдов, покрывающие в сумме не менее 50% генома.

Изучаемая сборка демонстрирует хорошее качество: относительно большое значение N50 и маленькое L50 указывают на низкую фрагментированность сборки и длинные контиги.

3. Знакомство с поисковыми системами NCBI, ENA, DDBJ

Поисковая система NCBI

Для выполенения задания был взят аквапорин (aquaporin) - трансмембранный белок, осуществляющий транспорт воды. При помощи Advanced Search на сайте NCBI при поиске по базе данных Nucleotide было найдено количество записей, посвященных генам и мРНК белка аквапорина:

aquaporin[Title] - 34 483 записи

С помощью фильтра по типу молекулы Molecule types можем найти количество генов или мРНК:

Molecule types Filters: genomic DNA/RNA - 3 123

Molecule types Filters: mRNA - 30 715

С помощью фильтра по базе данных Source databases можем найти записи в GenBank или RefSeq:

Source databases INSDC (GenBank) - 10 073

Source databases RefSeq - 24 178

При поиске нуклеотидных последовательностей аквапоринов человека и соответствующем запросе (aquaporin[Title]) AND Homo sapiens[Organism] - найдено 304 записи, из них:

База данных GenBank и genomic DNA/RNA - 63, база данных RefSeq и genomic DNA/RNA- 10, база данных GenBank и mRNA- 112, база данных RefSeq и mRNA - 92

При визуальном анализе записей было обнаружено, что есть не только варианты транскриптов разных типов аквапоринов, но и схожие с каким-нибудь типом аквапорина белки, полученные из кДНК и как правило, короче обычных транскриптов (например, Homo sapiens cDNA 5' similar to SW:AQP3_HUMAN Q92482 AQUAPORIN 3, mRNA sequence)

Можем убрать эти недостоверные записи с помощью запроса (((aquaporin[Title]) AND Homo sapiens[Organism]) NOT similar to[Title] - 257 записей, таким образом, записей стало на 47 меньше.

Поисковая система ENA

При поиске нуклеотидных последовательностей аквапоринов человека и указании соответствующих значений в полях Query:

tax_eq(9606) AND description="aquaporin" AND mol_type="mrna" - найдено 159 записи

tax_eq(9606) AND description="aquaporin" AND mol_type="genomic dna" - 88 записей

Поисковая система DDBJ

Поиск будем проводить в ARSA — Advanced Rearch System for Archived data — современная поисковая система для архивных данных в DDBJ (DNA Data Bank of Japan).

При поиске нуклеотидных последовательностей аквапоринов человека и указании в соответствующих полях нужное значение получаем для мРНК - 159 записей, для геномной ДНК - 93:

Molecular Type mRNA (во 2 запросе - DNA), Definition aquaporin, Organism Homo sapiens

Резюме

В таблице 2 представлены результаты поиска человеческих аквапоринов в 3 поисковых системах: NCBI, ENA, DDBJ. Как видно, числа записей не сильно различаются, но поисковая система NCBI находит больше записей мРНК белка аквапорина, а DDBJ - больше записей геномной ДНК.

Таблица 2. Сравнение результатов поиска NCBI, ENA, DDBJ
Database/Mol_type mRNA genomic DNA
NCBI 204 73
ENA 159 88
DDBJ 159 93