Практикум 7

Цель задания: Выбрать сборку генома эукариотического организма, подходящую по некоторым параметрам качества, охарактеризовать ее по предложенному плану и скачать файлы, которые потребуются для работы на следующем занятии. Познакомиться с системами поиска на сайтах NCBI и ENA.

Выбор качественной сборки эукариотического организма

В качестве эукариотического организма для анализа сборки генома я выбрала Saccharomyces cerevisiae(baker's yeast/пекарские дрожжи).

Теоретическая справка о организме

Это одноклеточный гриб диаметром около 5-10 микрометров. Является одним из фундаментальных модельных организмов в биологии, биохимии, генетике и биотехнологии. Это первый эукариот, чей геном был полностью секвенирован(1996 г.)

S. cerevisiae сыграли ключевую роль в развитии таких областей, как изучение клеточного цикла, регуляции транскрипции, механизмов рекомбинации ДНК, а также в исследованиях старения и апоптоза у эукариот.Благодаря простоте культивирования и генетическим манипуляциям, дрожжи часто используют в молекулярной биологии и в качестве продуцентов в промышленном синтезе инсулина, вакцин и других биопрепаратов.

Размножение:

Saccharomyces cerevisiae (пекарские дрожжи) размножаются почкованием. Сначала на материнской клетке появляется вырост, затем происходит деление ядра и формирование новой клеточной стенки. После этого дочерняя клетка отделяется. На месте почкования остается шрам, по которому можно определить возраст клетки. Одна материнская клетка может образовать 20-30 дочерних клеток.

Дрожжи могут существовать в двух состояниях: гаплоидном (один набор хромосом) и диплоидном (два набора хромосом). В природе преобладает диплоидная фаза. При неблагоприятных условиях диплоидные клетки образуют гаплоидные споры путем мейоза. При слиянии гаплоидных клеток снова образуются диплоидные.

Геном:

Геном дрожжей S. cerevisiae состоит примерно из 12 156 677 пар оснований и 6275 генов, компактно организованных на 16 хромосомах. Считается, что только около 5800 из этих генов являются функциональными.

Поиск сборки генома выбранного организма

Мой поисковый запрос на сайте NCBI Datasets был следующим: Saccharomyces cerevisiae + фильтры: уровень сборки Chromosome и выше, а также был включен фильтр Annotated genomes).

По данному поисковому запросу была найдено 125 сборкок, из них только R64 полностью подходила по всем параметрам.

Основные характеристики выбранной сборки.

Параметр Значение
Идентификатор GenBank GCA_000146045.2
Идентификатор RefSeq GCA_000146045.2
Уровень сборки генома Complete Genome *
Общий размер генома (п.н.) 12071326
Число хромосом 16
Число фрагментов генома в сборке (Number of scaffolds) 16
Scaffold N50 924431
Scaffold L50 6
Число контигов 16
Contig N50 924431
Contig L50 6

Пояснение:

* Complete Genome - в нее включены все ожидаемые хромосомы, причем каждая из них не имеет пропусков, нелокализованных скэффолдов и последовательностей длины 10 и более неоднозначных оснований, помимо этого, если есть геном органелл, то он также не содержит пробелов (согласно документации NCBI FTP README_assembly_summary.txt Column 12).

Number of scaffolds = общее количество таких фрагментов в сборке

Scaffold (скаффолд) — это непрерывный фрагмент сборки, который может содержать пробелы (gaps)

Scaffold N50 — это длина самого короткого скаффолда в наборе самых длинных скаффолдов, которые в сумме покрывают 50% генома.Для сборок уровня "Chromosome" Scaffold N50 обычно очень высокий, так как хромосомы собраны полностью.

Scaffold L50 — это минимальное количество самых длинных скаффолдов, которые в сумме покрывают 50% от общего размера генома.

Number of contigs (число контигов) — это общее количество непрерывных участков ДНК в сборке, между которыми нет пробелов (gaps).

Contig (контиг) — непрерывный фрагмент ДНК, собранный из прочтений секвенатора без разрывов. Scaffold (скаффолд) может состоять из нескольких контигов, соединенных пробелами (N)

Contig N50 — это длина самого короткого контига в наборе самых длинных контигов, которые в сумме покрывают 50% генома.

Contig L50 — это количество самых длинных контигов, сумма длин которых составляет половину от общего размера генома.

В чем разница между Scaffold N50 и Contig N50:

  • Scaffold N50 — учитывает фрагменты, которые могут содержать пробелы (N)
  • Contig N50 — учитывает только непрерывные фрагменты без пробелов

Сборка практически идеально отражает биологическую реальность. Во-первых, число скаффолдов равно числу хромосом (16), то есть геном собран полностью. Во-вторых, Scaffold N50 равен Contig N50 (924,431 п.н.), а Scaffold L50 равен Contig L50 (6). Это прямое доказательство того, что в сборке нет пробелов. 50% генома покрывается всего 6-ю самыми длинными хромосомами, и они же являются и самыми длинными непрерывными контигами. Это говорит о высочайшей точности и полноте сборки.

Файлы с информацией о сборке

Основные три файла (скачаны из базы данных RefSeq), содержащие главную информацию о геноме выбранного органзима:

Основная часть файлов была скачена на локаьный компьютер

6. Анализ распределения длин контигов в сборке генома Saccharomyces cerevisiae

Моя фотография

Рисунок 1. Распределение длин контигов в сборке S. cerevisiae R64

Результаты анализа

На графике представлены длины 16 контигов (хромосом) дрожжей, отсортированные по убыванию. Красными пунктирными линиями отмечена точка, соответствующая метрикам N50 и L50.

Количественные показатели:

Наблюдения и выводы

Высокое качество сборки

График демонстрирует плавное экспоненциальное убывание длин контигов, что характерно для качественных сборок уровня "Chromosome". Отсутствие резких скачков свидетельствует о равномерном распределении генетического материала по хромосомам.

Идеальное соответствие биологической организации

Количество контигов (16) точно соответствует известному числу хромосом S. cerevisiae, что подтверждает полноту сборки генома.

Эффективная организация генома

Метрика L50 = 6 указывает, что всего 6 самых длинных хромосом покрывают 50% всего генома. Это отражает биологически обоснованное распределение генетической информации, где наиболее важные гены сосредоточены в крупных хромосомах.

Визуальное подтверждение N50

Точка пересечения красных линий на графике четко показывает, что контиг №6 длиной 924,431 п.н. является тем порогом, выше которого находятся последовательности, покрывающие половину генома.

Логарифмическое представление

Использование логарифмических шкал по обеим осям эффективно визуализирует широкий диапазон длин хромосом (от ~270 тыс. до ~1.5 млн п.н.) на одном графике.

Полученный график и рассчитанные метрики подтверждают, что сборка R64 представляет собой высококачественную референсную сборку, полностью отражающую биологическую структуру генома Saccharomyces cerevisiae. Отличные показатели N50 и L50 в сочетании с идеальным соответствием числа контигов числу хромосом делают данную сборку надежным фундаментом для последующих биоинформатических исследований.

Шпаргалка

Базы данных

European Nucleotide Archive (ENA)

Что это такое?

European Nucleotide Archive (ENA) — это крупнейшая европейская база данных нуклеотидных последовательностей, управляемая Европейским институтом биоинформатики (EBI). ENA является одной из трех основных международных баз данных вместе с NCBI (США) и DDBJ (Япония).

Основные компоненты ENA

  • Sequence Read Archive (SRA) — архив raw-данных секвенирования
  • Assembly — база данных собранных геномов
  • Annotated Sequences — аннотированные последовательности
  • Taxonomy — таксономическая информация
  • Sample and Experiment — информация об образцах и экспериментах

Как искать информацию в ENA

Быстрый поиск (Quick Search)

  • Поиск по ключевым словам на главной странице
  • Поиск по accession numbers
  • Поиск по таксономическим названиям

Расширенный поиск (Advanced Search)

  • Сложные запросы с использованием логических операторов
  • Поиск по конкретным полям:
    • tax_eq(9606) — поиск по таксону (человек)
    • gene="actin" — поиск по названию гена
    • product="actin" — поиск по названию продукта
    • moltype="mRNA" — тип молекулы

Примеры поисковых запросов

Поиск мРНК актина человека:
tax_eq(9606) AND (description="actin" OR product="actin") AND moltype="mRNA"

Поиск генов актина:
tax_eq(9606) AND gene="actin"

Универсальный запрос:
tax_name="Homo sapiens" AND (gene="actin" OR product="actin")

Сильные стороны ENA

  • Современный и интуитивно понятный интерфейс
  • Мощный язык запросов с гибкими комбинациями условий
  • Прямая интеграция с данными секвенирования (SRA)
  • Быстрая скорость работы и выдачи результатов
  • Уникальные данные из европейских исследовательских проектов

Слабые стороны

  • Меньше обучающих материалов по сравнению с NCBI
  • Требует времени для освоения синтаксиса запросов
  • Ограниченные образовательные ресурсы и tutorials
  • Меньше вспомогательных инструментов для анализа

Практические рекомендации

Для начинающих:

  1. Начинайте с поиска по известным accession numbers
  2. Используйте быстрый поиск для простых запросов
  3. Изучайте примеры успешных поисковых стратегий

Для опытных пользователей:

  1. Осваивайте расширенный поиск с использованием логических операторов
  2. Сохраняйте часто используемые запросы
  3. Используйте ENA в комбинации с NCBI для получения полных результатов

Интеграция с другими ресурсами

ENA является частью глобальной сети баз данных и ежедневно обменивается данными с NCBI и DDBJ, обеспечивая согласованность информации во всех трех основных хранилищах.

Заключение

ENA представляет собой современную и эффективную платформу для работы с нуклеотидными последовательностями, особенно сильную в области доступа к raw-данным секвенирования и европейским исследовательским проектам. Хотя ENA может потребовать некоторого времени для освоения, она предлагает мощные возможности поиска и является ценным дополнением к инструментарию биоинформатика.

Национальный центр биотехнологической информации (NCBI)

Что это такое?

Национальный центр биотехнологической информации (National Center for Biotechnology Information, NCBI) — это ведущая американская организация, созданная в 1988 году как подразделение Национальной медицинской библиотеки США. Это главный мировой ресурс для получения биомедицинской и генетической информации.

Основные базы данных

  • PubMed — самая большая коллекция научных статей по медицине и биологии
  • Nucleotide — база данных последовательностей ДНК и РНК
  • Protein — хранилище белковых последовательностей
  • Gene — подробная информация о генах разных организмов
  • Genome — собранные геномы различных видов
  • SRA — архив raw-данных секвенирования
  • BLAST — знаменитый инструмент для сравнения биологических последовательностей

Как искать информацию в NCBI

Простой поиск

  • Единое поисковое окно на главной странице
  • Поиск сразу по всем базам данных
  • Быстрая фильтрация полученных результатов

Расширенный поиск

  • Доступен в каждой базе данных отдельно
  • Позволяет строить сложные запросы с помощью:
    • Логических операторов (И, ИЛИ, НЕ)
    • Указания полей поиска
    • Готовых фильтров

Примеры поисковых запросов

Поиск генов актина человека:
"actin"[Gene Name] AND "Homo sapiens"[Organism]

Поиск полных мРНК:
"actin"[mRNA] AND "complete cds"[Filter]

Сильные стороны NCBI

  • Наиболее полная и авторитетная база данных
  • Все ресурсы объединены в единую систему
  • Отличные обучающие материалы и документация
  • Мощные инструменты для анализа данных
  • Постоянное обновление и техническая поддержка

Слабые стороны

  • Может показаться сложным для новичков
  • Иногда выдает слишком много результатов
  • Требует времени для полноценного освоения

Советы по использованию

Для начинающих:

  1. Начните с простого поиска по известным терминам
  2. Используйте фильтры для уточнения результатов
  3. Осваивайте расширенный поиск постепенно

Важная информация

NCBI тесно связан с другими международными базами данных (ENA в Европе и DDBJ в Японии), что обеспечивает согласованность информации по всему миру.

Заключение

NCBI остается основным инструментом для большинства исследований в области молекулярной биологии благодаря своей надежности, полноте данных и мощным аналитическим возможностям.

DNA Data Bank of Japan (DDBJ)

Что это такое?

DNA Data Bank of Japan (DDBJ) — это японский центр нуклеотидных последовательностей, основанный в 1986 году. DDBJ является одним из трех международных партнеров в системе обмена данными вместе с NCBI (США) и ENA (Европа). Центр расположен в Национальном институте генетики в Мисиме, Япония.

Основные базы данных DDBJ

  • DDBJ Nucleotide Sequence Database — основная база данных последовательностей
  • DRA (DDBJ Sequence Read Archive) — архив данных высокопроизводительного секвенирования
  • GEA (DDBJ Genomic Expression Archive) — архив данных геномной экспрессии
  • JGA (Japanese Genotype-phenotype Archive) — архив японских геномных данных
  • BioProject — информация о биологических проектах

Как искать информацию в DDBJ

Базовый поиск

  • Поиск по ключевым словам через главную страницу
  • Поиск по accession numbers и версиям
  • Поиск по таксономической классификации

Расширенный поиск

  • Поиск с множественными критериями
  • Использование логических операторов:
    • AND — логическое "И"
    • OR — логическое "ИЛИ"
    • NOT — логическое "НЕ"
  • Поиск по специфическим полям:
    • organism — организм
    • gene — название гена
    • product — название продукта
    • molecule — тип молекулы

Примеры поисковых запросов

Поиск генов актина человека:
organism:"Homo sapiens" AND gene:actin

Поиск мРНК актина:
organism:"Homo sapiens" AND product:actin AND molecule:"messenger RNA"

Поиск с несколькими условиями:
(organism:"Homo sapiens" OR organism:"Mus musculus") AND gene:actin

Сильные стороны DDBJ

  • Уникальные данные из азиатских исследовательских проектов
  • Специализация на данных японских и азиатских организмов
  • Полная интеграция с международной системой обмена данными
  • Поддержка японского и английского языков
  • Доступ к уникальным коллекциям микроорганизмов и растений Азии

Слабые стороны

  • Интерфейс может показаться устаревшим по сравнению с ENA
  • Меньшая известность за пределами Азии
  • Ограниченные обучающие материалы на английском языке
  • Меньше пользователей по сравнению с NCBI

Практические рекомендации

Для начинающих:

  1. Начните с простого поиска по ключевым словам
  2. Используйте фильтры для уточнения результатов
  3. Ознакомьтесь с руководствами по поиску на сайте DDBJ

Для опытных пользователей:

  1. Используйте расширенный поиск для сложных запросов
  2. Изучайте уникальные азиатские datasets
  3. Воспользуйтесь инструментами анализа DDBJ

Международное сотрудничество

DDBJ активно участвует в International Nucleotide Sequence Database Collaboration (INSDC) — международном сотрудничестве с NCBI и ENA. Это обеспечивает ежедневный обмен данными и поддержание согласованности информации во всех трех базах данных.

Особенности DDBJ

DDBJ особенно силен в области данных, связанных с азиатской флорой и фауной, включая уникальные виды риса, шелкопряда, а также различные морские организмы, характерные для азиатского региона. Центр также специализируется на данных японских исследовательских проектов и национальных геномных инициативах.

Заключение

DDBJ является важным компонентом глобальной системы биоинформатических ресурсов, предлагая уникальный доступ к азиатским геномным данным. Хотя интерфейс может быть менее современным, чем у ENA, DDBJ предоставляет ценную информацию, особенно для исследований, связанных с азиатскими организмами и специализированными проектами. Для полного охвата данных рекомендуется использовать все три основные базы данных в комбинации.

Возможные вопросы:

Как соотносится число фрагментов в геноме и количество хромосом?

Соотношение является идеальным. У дрожжей 16 хромосом. В сборке R64 мы видим 16 скаффолдов и 16 контигов. Это означает, что каждая биологическая хромосома собрана в один непрерывный фрагмент ДНК без пробелов. Совпадение числа скаффолдов и контигов (16=16) подтверждает, что в сборке отсутствуют пропуски (gaps), что и характеризует уровень 'Complete Genome'

Логика метрик N50/L50?

Представьте, что геном — это длинная книга, которую разрезали на множество фрагментов. Нам нужно понять, насколько хорошо она восстановлена. Для этого используют две ключевые метрики: N50 и L50.

N50 показывает длину характерного фрагмента сборки. Если мы возьмем все фрагменты, отсортируем их от самого длинного к самому короткому и начнем последовательно складывать их длины, то N50 — это длина того фрагмента, при добавлении которого суммарная длина впервые достигнет половины от общего размера генома.

L50 показывает, сколько фрагментов понадобилось для достижения этой половины. Это минимальное количество самых длинных фрагментов, которые в сумме покрывают 50% генома.