Я выбрал для анализа геном пекарских дрожжей (Saccharomyces cerevisiae), так как это модельный организм. Для поиска сборки генома я использовал базу данных NCBI NLM, по запросу 'Saccharomyces cerevisiae' нашлось 1611 геномов, R64 - референсный (это значит, что сборка имеет высокое качество и сообщество выбрало ее стандартом для сравнения с другими сборками). Организм имеет 16 хромосом, в сборке 16 скаффолдов. Уровень сборки - Complete genome, то есть все хромосомы собраны полностью (без гэпов, не более 10 неоднозначно определенных нуклеотидов), все скаффолды относятся к хромосомам.
Табл 1. Характеристики сборки
GenBank | RefSeq | Genome size | Scaffold N50 | Scaffold L50 | Contig N50 | Contig L50 |
GCA_000146045.2 | GCF_000146045.2 | 12.1 Mb | 924.4 kb | 6 | 924.4 kb | 6 |
1 Mb = 1 млн по, 1 kb = 1 тыс по
В таблице 1 представлены некоторые справочные данные о сборке генома. Отдельно поясню, что означают числа N50 и L50. L50 - это наименьшее число контигов (скаффолдов) такое, что они покрывают не менее 50% нуклеотидов сборки. N50 - наименьшая длина контига (скаффолда) такого, что 50% нуклеотидов содержатся в контигах (скаффолдах) такой же или большей длины. То есть N50 - это длина L50-ого по длине контига (скаффолда). Интересно, что в данном случае N50 и L50 скаффолдов и контигов совпали, что говорит о очень высоком качестве сборки.