В качестве эукариотического организма для анализа сборки генома я выбрал Caenorhabditis elegans. Это почвенная свободноживущая нематода длиной около 1 мм. Является широко известным модельным объектом в биологии развития, генетике, нейрофизиологии (изучение старения и влияния лекарств на организм), молекулярной биологии (РНК-интерференция, микроРНК, редактирование РНК) и клеточной биологии (изучение апоптоза и клеточного цикла, картирование клеточных линий). Это был первый эукариот, чей геном был полностью отсеквенирован. Также был полностью описан коннектом данного вида. У данного червя есть два пола: самцы (X0) и гермафродиты (XX, самки, приобретшие способность к сперматогенезу). Ее жизненный цикл в норме включает 4 личиночные стадии (Рис. 1), однако при неблагоприятных условиях среды может развиваться особый тип личинок – дауэр-личинка (которая крайне стрессоустойчива) [1].
В гаплоидном наборе данного организма содержится 6 хромосом (Рис. 2): 5 аутосом (I, II, III, IV, V) и 1 гоносома (X).
Мой поисковый запрос на сайте NCBI Datasets был следующим: Caenorhabditis elegans с учетом фильтров (уровень сборки Chromosome и выше, а также был включен фильтр Annotated genomes, Рис. 3). По данному поисковому запросу была найдена только одна сборка WBcel235, она же является референсной и полностью подходила под требуемые параметры, поэтому она и была выбрана.
Уровень сборки моего генома составляет Complete Genome, это означает, что в нее включены все ожидаемые хромосомы, причем каждая из них не имеет пропусков, нелокализованных скэффолдов и последовательностей длины 10 и более неоднозначных оснований, помимо этого, если есть геном органелл, то он также не содержит пробелов (согласно документации NCBI FTP README_assembly_summary.txt Column 12).
Ниже представлена таблица с основными данными о выбранной мною сборке:
Пояснение к таблице: из данных видно, что для данной сборки контиги и скэффолды совпадают с целой хромосомой, параметр L50 говорит нам о наименьшем числе хромосом (в нашем случае одновременно и скэффолдов, и контигов) с наибольшими длинами, суммарная длина которых составляет более 50% от всего генома, в нашем случае их 3, значение же параметра N50 говорит нам о минимальной длине среди этих 3 хромосом.
С учетом того, что выбранная мною сборка обладает наивысшим уровнем (Complete Genome), а также с учетом совпадения контигов, скэффолдов с целыми хромосомами (так как везде совпадают количества, а также параметры N50 и L50, смотри Таб. 1) можно сделать вывод, что данная сборка крайне надежна и довольно точно отражает биологию данного организма. Это также подтверждают литературные данные [1] (у C. elegans в гаплоидном наборе как было написано выше 6 хромосом, столько же в сборке, размеры генома также совпадают, к тому же организм достаточно исследованный и изученный).
Ниже представлены основные три файла (скачаны из базы данных RefSeq), содержащие главную информацию о геноме выбранного органзима: