# Мотивация выбора
Я выбрал [T2T-сборку](https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_009914755.1/) для человеческого генома. T2T - это сокращение "telomere to telomere" - хромосомы десь собраны по всей длине: главным образом, это означает, что удалось сложить центромерные участки. Обычно они являются большой проблемой - в них много повторов, из-за чего расположить их прочтения хоть как-нибудь последовательно не получается.
В этой сфере существует терминологическая путаница - иногда под T2T понимают гораздо более простую задачу - разрешить теломеры. Посмотрим, что нам попалось в этом случае!
# Таксономический [запрос](https://www.ncbi.nlm.nih.gov/datasets/genome/?taxon=9606&annotated_only=true&refseq_annotation=true&genbank_annotation=true&assembly_level=2%3A3&release_year=2016%3A2023) и фильтры
- *Homo sapiens*
- уровень сборки - не ниже *chromosome*
- дата выхода - не позднее 2016 года (хорошие T2T появились сравнительно недавно)
На удивление, сборок, удовлетворивших всем этим требованиям, всего 5. И наша T2T-сборка здесь единственная, статус которой - `complete genome`. Для нас это означает, что геном считается полностью собранным $\implies$ для него разрешены в том числе центромерные участки. Ура, мы не стали жертвами терминологической путаницы и действительно нашли *полную* сборку!
# Сборка не референсная
Это означает, что не смотря на полноту, T2T пока не может выступить в качестве основного генома. Я думаю, что это может быть связано с отличающейся постановкой задачи у команд, работающих с T2T - цель не в том, чтобы максимально точно отработать по всем участкам генома, а в том, чтобы собрать области, которые совсем никак не собираются.
# Описательные характеристики
|Параметр|Значение |
|------ |:------: |
| GenBank ID| GCA_009914755.4|
| RefSeq ID| GCF_009914755.1 |
| Genome size | 3.1 Gb |
| Scaffold N50| 150.6 Mb|
| Scaffold L50|9 |
| Contig N50|150.6 Mb |
| Contig L50|9 |
L50 и N50 для скэффолдов и контигов тут совпадают, что логично: все фрагменты генома представлены хромосомами, поэтому как таковых контигов и скэффолдов тут даже и нет $\implies$ все эти параметры измеряются на хромосомах. Итак, значение N50 означает, что половина всего генома содержится в контигах (у нас это хромосомы) длины, не меньшей 150.6 миллионов пар оснований, в нашем случае это можно трактовать просто как *медиану длин хромосом*. L50 говорит о том, что половина всего генома умещается в 9 самых больших хромосомах.