Для задания был выбран организм: домашняя лошадь
Латинское название: Equus caballus
Английское название: Domestic horse
| Параметр | Значение |
| Идентификатор GenBank | GCA_041296265.1 |
| Идентификатор RefSeq | GCF_041296265.1 |
| Уровень сборки генома | Chromosome |
| Общий размер генома (п.н.) | 2.8 Gb |
| Число фрагментов генома в сборке | контигов - 629, скэффолдов - 624 |
| Параметр Scaffold N50 | 99.2 Mb |
| Параметр Scaffold L50 | 12 |
| Параметр Contig N50 | 99.2 Mb |
| Параметр Contig L50 | 12 |
N50 - длина самого короткого контига/скэффолда в наборе, который охватывает 50% от общего размера генома. Чем выше N50, тем лучше качество сборки.
L50 - количество контигов/скэффолдов, суммарная длина которых составляет 50% от общего размера генома. Чем меньше L50, тем лучше качество сборки.
Для анализа был выбран белок коллаген - фибриллярный белок, составляющий основу соединительной ткани организма.
Для поиска в NCBI я использовала Advanced Search в базе данных Nucleotide:
| Параметр поиска | Количество записей |
| Все записи с "collagen" в названии | 162945 |
| Записи из GenBank | 22144 |
| Записи из RefSeq | 140784 |
| Записи для человека (Homo sapiens) | 4062 |
| мРНК из RefSeq для человека | 696 |
| DNA/RNA из RefSeq для человека | 43 |
| мРНК из GenBank для человека | 2476 |
| DNA/RNA из GenBank для человека | 741 |
Чтобы проверить, что эти записи содержат последолвательности, кодирующие белки с соответсвующей функцией, был сделан запрос: collagen[Title] AND (Homo sapiens[Organism]) NOT (predicted[Title])
Результат: 3446 (сократилось на 616)
Также использовался Advanced Search
| Тип последовательности | Поисковый запрос | Количество записей |
| мРНК человека | tax_eq(9606) AND description="Collagen" AND mol_type="mRNA" | 2557 |
| Геномная ДНК человека | tax_eq(9606) AND description="Collagen" AND mol_type="genomic DNA" | 294 |
Количество записей в NCBI и ENA очень сильно различается. NCBI проще, а ENA обладает удобными подсказками при составлении запросов.