Нуклеотидные банки данных





Я выбрал для анализа геном пекарских дрожжей (Saccharomyces cerevisiae), так как это модельный организм. Для поиска сборки генома я использовал базу данных NCBI NLM, по запросу 'Saccharomyces cerevisiae' нашлось 1611 геномов, R64 - референсный (это значит, что сборка имеет высокое качество и сообщество выбрало ее стандартом для сравнения с другими сборками). Организм имеет 16 хромосом, в сборке 16 скаффолдов. Уровень сборки - Complete genome, то есть все хромосомы собраны полностью (без гэпов, не более 10 неоднозначно определенных нуклеотидов), все скаффолды относятся к хромосомам.


Табл 1. Характеристики сборки

GenBank RefSeq Genome size Scaffold N50 Scaffold L50 Contig N50 Contig L50
GCA_000146045.2 GCF_000146045.2 12.1 Mb 924.4 kb 6 924.4 kb 6

1 Mb = 1 млн по, 1 kb = 1 тыс по




В таблице 1 представлены некоторые справочные данные о сборке генома. Отдельно поясню, что означают числа N50 и L50. L50 - это наименьшее число контигов (скаффолдов) такое, что они покрывают не менее 50% нуклеотидов сборки. N50 - наименьшая длина контига (скаффолда) такого, что 50% нуклеотидов содержатся в контигах (скаффолдах) такой же или большей длины. То есть N50 - это длина L50-ого по длине контига (скаффолда). Интересно, что в данном случае N50 и L50 скаффолдов и контигов совпали, что говорит о очень высоком качестве сборки.