Практикум 7
Цель задания: Выбрать сборку генома эукариотического организма, подходящую по некоторым параметрам качества, охарактеризовать ее по предложенному плану и скачать файлы, которые потребуются для работы на следующем занятии. Познакомиться с системами поиска на сайтах NCBI и ENA.
Выбор качественной сборки эукариотического организма
В качестве эукариотического организма для анализа сборки генома я выбрала Saccharomyces cerevisiae(baker's yeast/пекарские дрожжи).
Теоритический минимум:
Это одноклеточный гриб диаметром около 5-10 микрометров. Является одним из фундаментальных модельных организмов в биологии, биохимии, генетике и биотехнологии. Это первый эукариот, чей геном был полностью секвенирован(1996 г.)
S. cerevisiae сыграли ключевую роль в развитии таких областей, как изучение клеточного цикла, регуляции транскрипции, механизмов рекомбинации ДНК, а также в исследованиях старения и апоптоза у эукариот.Благодаря простоте культивирования и генетическим манипуляциям, дрожжи часто используют в молекулярной биологии и в качестве продуцентов в промышленном синтезе инсулина, вакцин и других биопрепаратов.
Размножение:
Saccharomyces cerevisiae (пекарские дрожжи) размножаются почкованием. Сначала на материнской клетке появляется вырост, затем происходит деление ядра и формирование новой клеточной стенки. После этого дочерняя клетка отделяется. На месте почкования остается шрам, по которому можно определить возраст клетки. Одна материнская клетка может образовать 20-30 дочерних клеток.
Дрожжи могут существовать в двух состояниях: гаплоидном (один набор хромосом) и диплоидном (два набора хромосом). В природе преобладает диплоидная фаза. При неблагоприятных условиях диплоидные клетки образуют гаплоидные споры путем мейоза. При слиянии гаплоидных клеток снова образуются диплоидные.
Геном
Геном дрожжей S. cerevisiae состоит примерно из 12 156 677 пар оснований и 6275 генов, компактно организованных на 16 хромосомах. Считается, что только около 5800 из этих генов являются функциональными.
Поиск сборки генома выбранного организма
Мой поисковый запрос на сайте NCBI Datasets был следующим: Saccharomyces cerevisiae + фильтры: уровень сборки Chromosome и выше, а также был включен фильтр Annotated genomes).
По данному поисковому запросу была найдено 123 сборки, из них только R64 полностью подходила по всем параметрам.
Основные характеристики выбранной сборки.
| Параметр |
Значение |
| Идентификатор GenBank |
GCA_000146045.2 |
| Идентификатор RefSeq |
GCA_000146045.2 |
| Уровень сборки генома |
Complete Genome * |
| Общий размер генома (п.н.) |
12071326 |
| Число хромосом |
16 |
| Число фрагментов генома в сборке (Number of scaffolds) |
16 |
| Scaffold N50 |
924431 |
| Scaffold L50 |
6 |
| Число контигов |
16 |
| Contig N50 |
924431 |
| Contig L50 |
6 |
Пояснение:
* Complete Genome - в нее включены все ожидаемые хромосомы, причем каждая из них не имеет пропусков, нелокализованных скэффолдов и последовательностей длины 10 и более неоднозначных оснований, помимо этого, если есть геном органелл, то он также не содержит пробелов (согласно документации NCBI FTP README_assembly_summary.txt Column 12).
Number of scaffolds = общее количество таких фрагментов в сборке
Scaffold (скаффолд) — это непрерывный фрагмент сборки, который может содержать пробелы (gaps)
Scaffold N50 — это длина самого короткого скаффолда в наборе самых длинных скаффолдов, которые в сумме покрывают 50% генома.Для сборок уровня "Chromosome" Scaffold N50 обычно очень высокий, так как хромосомы собраны полностью.
Scaffold L50 — это минимальное количество самых длинных скаффолдов, которые в сумме покрывают 50% от общего размера генома.
Number of contigs (число контигов) — это общее количество непрерывных участков ДНК в сборке, между которыми нет пробелов (gaps).
Contig (контиг) — непрерывный фрагмент ДНК, собранный из прочтений секвенатора без разрывов. Scaffold (скаффолд) может состоять из нескольких контигов, соединенных пробелами (N)
Contig N50 — это длина самого короткого контига в наборе самых длинных контигов, которые в сумме покрывают 50% генома.
Contig L50 — это количество самых длинных контигов, сумма длин которых составляет половину от общего размера генома.
В чем разница между Scaffold N50 и Contig N50:
- Scaffold N50 — учитывает фрагменты, которые могут содержать пробелы (N)
- Contig N50 — учитывает только непрерывные фрагменты без пробелов
Сборка практически идеально отражает биологическую реальность. Во-первых, число скаффолдов равно числу хромосом (16), то есть геном собран полностью. Во-вторых, Scaffold N50 равен Contig N50 (924,431 п.н.), а Scaffold L50 равен Contig L50 (6). Это прямое доказательство того, что в сборке нет пробелов. 50% генома покрывается всего 6-ю самыми длинными хромосомами, и они же являются и самыми длинными непрерывными контигами. Это говорит о высочайшей точности и полноте сборки.
Файлы с информацией о сборке
Основные три файла (скачаны из базы данных RefSeq), содержащие главную информацию о геноме выбранного органзима:
- GCA_000146045.2_R64_genomic.fna – файл, содержащий нуклеотидные последовательности всех хромосом данного организма в формате FASTA.
- protein.faa – файл, содержащий аминокислотные последовательности всех известных белков данного организма в формате FASTA.
- genomic.gbff – файл, содержащий аннотацию всего генома: содержат общую информацию (уникальный идентификатор, таксономию организма, краткое описание хромосом, тип и длину нуклеиновой кислоты и т.п.), аннотацию участков ДНК (гены белков, тРНК, рРНК, их координаты, расположение, некоторые особенности), последовательности хромосом.
Основная часть файлов была скачена на локаьный компьютер
Анализ распределения длин контигов в сборке генома Saccharomyces cerevisiae
Рисунок 1. Распределение длин контигов в сборке S. cerevisiae R64
Результаты анализа
На графике представлены длины 16 контигов (хромосом) дрожжей, отсортированные по убыванию. Красными пунктирными линиями отмечена точка, соответствующая метрикам N50 и L50.
Количественные показатели:
- Общее количество контигов: 16
- Общий размер генома: 12,071,326 п.н.
- N50: 924,431 п.н.
- L50: 6
- Размер самой большой хромосомы: ~1,531,933 п.н.
- Размер самой маленькой хромосомы: ~270,161 п.н.
Наблюдения и выводы
Высокое качество сборки
График демонстрирует плавное экспоненциальное убывание длин контигов, что характерно для качественных сборок уровня "Chromosome". Отсутствие резких скачков свидетельствует о равномерном распределении генетического материала по хромосомам.
Идеальное соответствие биологической организации
Количество контигов (16) точно соответствует известному числу хромосом S. cerevisiae, что подтверждает полноту сборки генома.
Эффективная организация генома
Метрика L50 = 6 указывает, что всего 6 самых длинных хромосом покрывают 50% всего генома. Это отражает биологически обоснованное распределение генетической информации, где наиболее важные гены сосредоточены в крупных хромосомах.
Визуальное подтверждение N50
Точка пересечения красных линий на графике четко показывает, что контиг №6 длиной 924,431 п.н. является тем порогом, выше которого находятся последовательности, покрывающие половину генома.
Логарифмическое представление
Использование логарифмических шкал по обеим осям эффективно визуализирует широкий диапазон длин хромосом (от ~270 тыс. до ~1.5 млн п.н.) на одном графике.
Полученный график и рассчитанные метрики подтверждают, что сборка R64 представляет собой высококачественную референсную сборку, полностью отражающую биологическую структуру генома Saccharomyces cerevisiae. Отличные показатели N50 и L50 в сочетании с идеальным соответствием числа контигов числу хромосом делают данную сборку надежным фундаментом для последующих биоинформатических исследований.