ОС Капшай. Нуклеотидные банки

Нуклеотидные банки данных

Я выбрал для анализа геном пекарских дрожжей (Saccharomyces cerevisiae), так как это модельный организм. Для поиска сборки генома я использовал базу данных NCBI NLM, по запросу 'Saccharomyces cerevisiae' нашлось 1611 геномов, R64 - референсный (это значит, что сборка имеет высокое качество и сообщество выбрало ее стандартом для сравнения с другими сборками). Организм имеет 16 хромосом, в сборке 16 скаффолдов. Уровень сборки - Complete genome, то есть все хромосомы собраны полностью (без гэпов, не более 10 неоднозначно определенных нуклеотидов), все скаффолды относятся к хромосомам.

Табл 1. Характеристики сборки

GenBank	RefSeq	Genome size	Scaffold N50	Scaffold L50	Contig N50	Contig L50
GCA_000146045.2	GCF_000146045.2	12.1 Mb	924.4 kb	6	924.4 kb	6

1 Mb = 1 млн по, 1 kb = 1 тыс по

В таблице 1 представлены некоторые справочные данные о сборке генома. Отдельно поясню, что означают числа N50 и L50. L50 - это наименьшее число контигов (скаффолдов) такое, что они покрывают не менее 50% нуклеотидов сборки. N50 - наименьшая длина контига (скаффолда) такого, что 50% нуклеотидов содержатся в контигах (скаффолдах) такой же или большей длины. То есть N50 - это длина L50-ого по длине контига (скаффолда). Интересно, что в данном случае N50 и L50 скаффолдов и контигов совпали, что говорит о очень высоком качестве сборки.