Pr7: T2T

# Мотивация выбора Я выбрал [T2T-сборку](https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_009914755.1/) для человеческого генома. T2T - это сокращение "telomere to telomere" - хромосомы десь собраны по всей длине: главным образом, это означает, что удалось сложить центромерные участки. Обычно они являются большой проблемой - в них много повторов, из-за чего расположить их прочтения хоть как-нибудь последовательно не получается. В этой сфере существует терминологическая путаница - иногда под T2T понимают гораздо более простую задачу - разрешить теломеры. Посмотрим, что нам попалось в этом случае! # Таксономический [запрос](https://www.ncbi.nlm.nih.gov/datasets/genome/?taxon=9606&annotated_only=true&refseq_annotation=true&genbank_annotation=true&assembly_level=2%3A3&release_year=2016%3A2023) и фильтры - *Homo sapiens* - уровень сборки - не ниже *chromosome* - дата выхода - не позднее 2016 года (хорошие T2T появились сравнительно недавно) На удивление, сборок, удовлетворивших всем этим требованиям, всего 5. И наша T2T-сборка здесь единственная, статус которой - `complete genome`. Для нас это означает, что геном считается полностью собранным $\implies$ для него разрешены в том числе центромерные участки. Ура, мы не стали жертвами терминологической путаницы и действительно нашли *полную* сборку! # Сборка не референсная Это означает, что не смотря на полноту, T2T пока не может выступить в качестве основного генома. Я думаю, что это может быть связано с отличающейся постановкой задачи у команд, работающих с T2T - цель не в том, чтобы максимально точно отработать по всем участкам генома, а в том, чтобы собрать области, которые совсем никак не собираются. # Описательные характеристики |Параметр|Значение | |------ |:------: | | GenBank ID| GCA_009914755.4| | RefSeq ID| GCF_009914755.1 | | Genome size | 3.1 Gb | | Scaffold N50| 150.6 Mb| | Scaffold L50|9 | | Contig N50|150.6 Mb | | Contig L50|9 | L50 и N50 для скэффолдов и контигов тут совпадают, что логично: все фрагменты генома представлены хромосомами, поэтому как таковых контигов и скэффолдов тут даже и нет $\implies$ все эти параметры измеряются на хромосомах. Итак, значение N50 означает, что половина всего генома содержится в контигах (у нас это хромосомы) длины, не меньшей 150.6 миллионов пар оснований, в нашем случае это можно трактовать просто как *медиану длин хромосом*. L50 говорит о том, что половина всего генома умещается в 9 самых больших хромосомах.