Практикум 7

Выбор качественной сборки эукариотического организма

В качестве эукариотического организма для анализа сборки генома я выбрал Caenorhabditis elegans. Это почвенная свободноживущая нематода длиной около 1 мм. Является широко известным модельным объектом в биологии развития, генетике, нейрофизиологии (изучение старения и влияния лекарств на организм), молекулярной биологии (РНК-интерференция, микроРНК, редактирование РНК) и клеточной биологии (изучение апоптоза и клеточного цикла, картирование клеточных линий). Это был первый эукариот, чей геном был полностью отсеквенирован. Также был полностью описан коннектом данного вида. У данного червя есть два пола: самцы (X0) и гермафродиты (XX, самки, приобретшие способность к сперматогенезу). Ее жизненный цикл в норме включает 4 личиночные стадии (Рис. 1), однако при неблагоприятных условиях среды может развиваться особый тип личинок – дауэр-личинка (которая крайне стрессоустойчива) [1].

Рис. 1. Краткая схема жизненного цикла, а также морфо-анатомия C. elegans. Источник изображения [1].

В гаплоидном наборе данного организма содержится 6 хромосом (Рис. 2): 5 аутосом (I, II, III, IV, V) и 1 гоносома (X).

Рис. 2. Кариотип C. elegans.

Мой поисковый запрос на сайте NCBI Datasets был следующим: Caenorhabditis elegans с учетом фильтров (уровень сборки Chromosome и выше, а также был включен фильтр Annotated genomes, Рис. 3). По данному поисковому запросу была найдена только одна сборка WBcel235, она же является референсной и полностью подходила под требуемые параметры, поэтому она и была выбрана.

Рис. 3. Мой поисковый запрос и результаты выдачи.

Уровень сборки моего генома составляет Complete Genome, это означает, что в нее включены все ожидаемые хромосомы, причем каждая из них не имеет пропусков, нелокализованных скэффолдов и последовательностей длины 10 и более неоднозначных оснований, помимо этого, если есть геном органелл, то он также не содержит пробелов (согласно документации NCBI FTP README_assembly_summary.txt Column 12).

Главные характеристики данной сборки

Ниже представлена таблица с основными данными о выбранной мною сборке:

Таб. 1. Основные характеристики выбранной сборки.

Пояснение к таблице: из данных видно, что для данной сборки контиги и скэффолды совпадают с целой хромосомой, параметр L50 говорит нам о наименьшем числе хромосом (в нашем случае одновременно и скэффолдов, и контигов) с наибольшими длинами, суммарная длина которых составляет более 50% от всего генома, в нашем случае их 3, значение же параметра N50 говорит нам о минимальной длине среди этих 3 хромосом.

С учетом того, что выбранная мною сборка обладает наивысшим уровнем (Complete Genome), а также с учетом совпадения контигов, скэффолдов с целыми хромосомами (так как везде совпадают количества, а также параметры N50 и L50, смотри Таб. 1) можно сделать вывод, что данная сборка крайне надежна и довольно точно отражает биологию данного организма. Это также подтверждают литературные данные [1] (у C. elegans в гаплоидном наборе как было написано выше 6 хромосом, столько же в сборке, размеры генома также совпадают, к тому же организм достаточно исследованный и изученный).

Файлы с информацией о сборке

Ниже представлены основные три файла (скачаны из базы данных RefSeq), содержащие главную информацию о геноме выбранного органзима:

  1. genome_seq.fna – файл, содержащий нуклеотидные последовательности всех хромосом данного организма в формате FASTA.
  2. protein.faa – файл, содержащий аминокислотные последовательности всех известных белков данного организма в формате FASTA.
  3. genomic.gbff – файл, содержащий аннотацию всего генома: содержат общую информацию (уникальный идентификатор, таксономию организма, краткое описание хромосом, тип и длину нуклеиновой кислоты и т.п.), аннотацию участков ДНК (гены белков, тРНК, рРНК, их координаты, расположение, некоторые особенности), последовательности хромосом.

Литература

  1. Caenorhabditis elegans (Электронный ресурс): Wikipedia. The Free Encyclopedia. Режим доступа: https://en.wikipedia.org/wiki/Caenorhabditis_elegans (дата обращения 19.10.2024).