Практикум 7

Цель задания: Выбрать сборку генома эукариотического организма, подходящую по некоторым параметрам качества, охарактеризовать ее по предложенному плану и скачать файлы, которые потребуются для работы на следующем занятии. Познакомиться с системами поиска на сайтах NCBI и ENA.

1. Выбор качественной сборки эукариотического организма

В качестве эукариотического организма для анализа сборки генома я выбрала Saccharomyces cerevisiae(baker's yeast/пекарские дрожжи).

Теоретическая справка о организме

Это одноклеточный гриб диаметром около 5-10 микрометров. Является одним из фундаментальных модельных организмов в биологии, биохимии, генетике и биотехнологии. Это первый эукариот, чей геном был полностью секвенирован(1996 г.)

S. cerevisiae сыграли ключевую роль в развитии таких областей, как изучение клеточного цикла, регуляции транскрипции, механизмов рекомбинации ДНК, а также в исследованиях старения и апоптоза у эукариот.Благодаря простоте культивирования и генетическим манипуляциям, дрожжи часто используют в молекулярной биологии и в качестве продуцентов в промышленном синтезе инсулина, вакцин и других биопрепаратов.

Размножение:

Saccharomyces cerevisiae (пекарские дрожжи) размножаются почкованием. Сначала на материнской клетке появляется вырост, затем происходит деление ядра и формирование новой клеточной стенки. После этого дочерняя клетка отделяется. На месте почкования остается шрам, по которому можно определить возраст клетки. Одна материнская клетка может образовать 20-30 дочерних клеток.

Дрожжи могут существовать в двух состояниях: гаплоидном (один набор хромосом) и диплоидном (два набора хромосом). В природе преобладает диплоидная фаза. При неблагоприятных условиях диплоидные клетки образуют гаплоидные споры путем мейоза. При слиянии гаплоидных клеток снова образуются диплоидные.

Геном:

Геном дрожжей S. cerevisiae состоит примерно из 12 156 677 пар оснований и 6275 генов, компактно организованных на 16 хромосомах в гаплоидном наборе(В диплоидной клетке (2n) количество хромосом будет равно 32). Считается, что только около 5800 из этих генов являются функциональными.

Поиск сборки генома выбранного организма

Мой поисковый запрос на сайте NCBI Datasets был следующим: Saccharomyces cerevisiae + фильтры: уровень сборки Chromosome и выше, а также был включен фильтр Annotated genomes).

По данному поисковому запросу была найдено 125 сборкок, из них только R64 полностью подходила по всем параметрам.

2. Основные характеристики выбранной сборки.

Параметр	Значение
Идентификатор GenBank	GCA_000146045.2
Идентификатор RefSeq	GCA_000146045.2
Уровень сборки генома	Complete Genome *
Общий размер генома (п.н.)	12071326
Число хромосом	16
Число фрагментов генома в сборке (Number of scaffolds)	16
Scaffold N50	924431
Scaffold L50	6
Число контигов	16
Contig N50	924431
Contig L50	6

Пояснение:

* Complete Genome - в нее включены все ожидаемые хромосомы, причем каждая из них не имеет пропусков, нелокализованных скэффолдов и последовательностей длины 10 и более неоднозначных оснований, помимо этого, если есть геном органелл, то он также не содержит пробелов (согласно документации NCBI FTP README_assembly_summary.txt Column 12).

Number of scaffolds = общее количество таких фрагментов в сборке

Scaffold (скаффолд) — это непрерывный фрагмент сборки, который может содержать пробелы (gaps)

Scaffold N50 — это длина самого короткого скаффолда в наборе самых длинных скаффолдов, которые в сумме покрывают 50% генома.Для сборок уровня "Chromosome" Scaffold N50 обычно очень высокий, так как хромосомы собраны полностью.

Scaffold L50 — это минимальное количество самых длинных скаффолдов, которые в сумме покрывают 50% от общего размера генома.

Number of contigs (число контигов) — это общее количество непрерывных участков ДНК в сборке, между которыми нет пробелов (gaps).

Contig (контиг) — непрерывный фрагмент ДНК, собранный из прочтений секвенатора без разрывов. Scaffold (скаффолд) может состоять из нескольких контигов, соединенных пробелами (N)

Contig N50 — это длина самого короткого контига в наборе самых длинных контигов, которые в сумме покрывают 50% генома.

Contig L50 — это количество самых длинных контигов, сумма длин которых составляет половину от общего размера генома.

В чем разница между Scaffold N50 и Contig N50:

Scaffold N50 — учитывает фрагменты, которые могут содержать пробелы (N)
Contig N50 — учитывает только непрерывные фрагменты без пробелов

Сборка практически идеально отражает биологическую реальность. Во-первых, число скаффолдов равно числу хромосом (16), то есть геном собран полностью. Во-вторых, Scaffold N50 равен Contig N50 (924,431 п.н.), а Scaffold L50 равен Contig L50 (6). Это прямое доказательство того, что в сборке нет пробелов. 50% генома покрывается всего 6-ю самыми длинными хромосомами, и они же являются и самыми длинными непрерывными контигами. Это говорит о высокой точности и полноте сборки.

3. Файлы с информацией о сборке

Основные три файла (скачаны из базы данных RefSeq), содержащие главную информацию о геноме выбранного органзима:

GCA_000146045.2_R64_genomic.fna – файл, содержащий нуклеотидные последовательности всех хромосом данного организма в формате FASTA.
protein.faa – файл, содержащий аминокислотные последовательности всех известных белков данного организма в формате FASTA.
genomic.gbff – файл, содержащий аннотацию всего генома: содержат общую информацию (уникальный идентификатор, таксономию организма, краткое описание хромосом, тип и длину нуклеиновой кислоты и т.п.), аннотацию участков ДНК (гены белков, тРНК, рРНК, их координаты, расположение, некоторые особенности), последовательности хромосом.

Основная часть файлов была скачена на локаьный компьютер

4. Знакомство с поисковыми системами ENA и NCBI

A. Поиск в базе данных NCBI

Для поиска я выбрала insulin, так как он есть во всех базах данных. Поиск проводился в базе данных Nucleotide с использованием расширенного поиска (Advanced Search).

Методика поиска:

Заходим на сайт NCBI Nucleotide: https://www.ncbi.nlm.nih.gov/nuccore.
вводим основу для поиска в поисковую строку
Внимательно смотрим на страницу, находим Advanced, тут можно добовлять опции поиска, снова внимтельно смотрим и находим справа колонку с различными метриками,а слева - Search details, туда мы будем встраивать запросы:

insulin[Title]

Что ищем?	Запрос	Результат	Пояснение
Все упоминания	`insulin[All Fields]`	261670 записей	Эта часть запроса говорит системе искать термин "insulin" везде, где он может встретиться в описании последовательности
Упоминания в названии	`insulin[Title]`	47063 записей	Эта часть запроса говорит системе искать термин "insulin" во всех названиях
...из них в мРНК	`insulin[Title] AND biomol_mrna[PROP]`	37803 записей	только мРНК
...из них в генах	`insulin[Title] AND biomol_genomic[PROP]`	4129 записей	только геномные локусы
...из них в и там, и там	`insulin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP])`	41932 записей
...из них в в Genbank	`nsulin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP]) AND ddbj_embl_genbank[filter]`	9296 запросов	записи, которые происходят из трех основных международных баз данных нуклеотидных последовательностей, входящих в коллаборацию INSDC (International Nucleotide Sequence Database Collaboration): GenBank (NCBI, США), EMBL-Bank (EBI, Европа), DDBJ (DNA Data Bank of Japan, Япония)
...из них в в RefSeq	`insulin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP]) AND refseq[filter]`	32633 запросов	Только эталонные последовательности

Примеры других значений [PROP] для поиска (добавить через логический оператор `AND`)

Запрос	Результат	Значение	Для чего нужно
`biomol_genomic`	-	Геномная ДНК	Поиск генов в составе хромосом
`biomol_mrna`	-	мРНК	Поиск только зрелых транскриптов
`biomol_ncrna`	-	Некодирующая РНК	Поиск тРНК, рРНК и других
`gene_in_mitochondrion`	-	Ген в митохондрии	Поиск только митохондриальных генов
`gene_in_plastid`	-	Ген в пластиде	Поиск хлоропластных генов растений

4. Чтобы найти записи, относящиеся только к человеку, добавить в запрос `AND "Homo sapiens"[Organism]`

Что ищем?	Запрос	Результат
GenBank (человек)	`insulin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP]) AND ddbj_embl_genbank[filter] AND "Homo sapiens"[Organism]`	5328 записей
RefSeq (человек)	`insulin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP]) AND refseq[filter] AND "Homo sapiens"[Organism]`	236 записей

B. Поиск в базе данных ENA

Поиск проводился в European Nucleotide Archive (ENA) с использованием Advanced Search.

Методика поиска:

Перейти на сайт ENA Browser: https://www.ebi.ac.uk/ebisearch/documentation#query_syntax.
Использовать поисковую строку или Advanced Search.
Построить следующие запросы:

Что ищем?	Запрос	Результат
мРНК человека	`tax_eq(9606) AND description="insulin" AND mol_type="mrna"`	0 записей
Гены человека	`tax_eq(9606) AND description="insulin" AND mol_type="genomic dna"`	0 записей

Мнение:

ENA показывает меньшее количество записей по сравнению с NCBI для одного и того же запроса. Это связано с тем, что ENA в первую очередь является архивом сырых данных секвенирования и сборок, а не обширной базой аннотированных референсных последовательностей, как NCBI.
Поиск более медленный, пока разбиралась почувствовала себя тапочком-почемучкой

6. Анализ распределения длин контигов в сборке генома Saccharomyces cerevisiae

Рисунок 1. Распределение длин контигов в сборке S. cerevisiae R64

Результаты анализа

На графике представлены длины 16 контигов (хромосом) дрожжей, отсортированные по убыванию. Красными пунктирными линиями отмечена точка, соответствующая метрикам N50 и L50.

Количественные показатели:

Общее количество контигов: 16
Общий размер генома: 12,071,326 п.н.
N50: 924,431 п.н.
L50: 6
Размер самой большой хромосомы: ~1,531,933 п.н.
Размер самой маленькой хромосомы: ~270,161 п.н.

Наблюдения и выводы

Высокое качество сборки

График демонстрирует плавное экспоненциальное убывание длин контигов, что характерно для качественных сборок уровня "Chromosome". Отсутствие резких скачков свидетельствует о равномерном распределении генетического материала по хромосомам.

Идеальное соответствие биологической организации

Количество контигов (16) точно соответствует известному числу хромосом S. cerevisiae, что подтверждает полноту сборки генома.

Эффективная организация генома

Метрика L50 = 6 указывает, что всего 6 самых длинных хромосом покрывают 50% всего генома. Это отражает биологически обоснованное распределение генетической информации, где наиболее важные гены сосредоточены в крупных хромосомах.

Визуальное подтверждение N50

Точка пересечения красных линий на графике четко показывает, что контиг №6 длиной 924,431 п.н. является тем порогом, выше которого находятся последовательности, покрывающие половину генома.

Логарифмическое представление

Использование логарифмических шкал по обеим осям эффективно визуализирует широкий диапазон длин хромосом (от ~270 тыс. до ~1.5 млн п.н.) на одном графике.

Полученный график и рассчитанные метрики подтверждают, что сборка R64 представляет собой высококачественную референсную сборку, полностью отражающую биологическую структуру генома Saccharomyces cerevisiae. Отличные показатели N50 и L50 в сочетании с идеальным соответствием числа контигов числу хромосом делают данную сборку надежным фундаментом для последующих биоинформатических исследований.

Шпаргалка

Базы данных

European Nucleotide Archive (ENA)

Что это такое?

European Nucleotide Archive (ENA) — это крупнейшая европейская база данных нуклеотидных последовательностей, управляемая Европейским институтом биоинформатики (EBI). ENA является одной из трех основных международных баз данных вместе с NCBI (США) и DDBJ (Япония).

Основные компоненты ENA

Sequence Read Archive (SRA) — архив raw-данных секвенирования
Assembly — база данных собранных геномов
Annotated Sequences — аннотированные последовательности
Taxonomy — таксономическая информация
Sample and Experiment — информация об образцах и экспериментах

Как искать информацию в ENA

Быстрый поиск (Quick Search)

Поиск по ключевым словам на главной странице
Поиск по accession numbers
Поиск по таксономическим названиям

Расширенный поиск (Advanced Search)

Сложные запросы с использованием логических операторов
Поиск по конкретным полям:
- tax_eq(9606) — поиск по таксону (человек)
- gene="actin" — поиск по названию гена
- product="actin" — поиск по названию продукта
- moltype="mRNA" — тип молекулы

Примеры поисковых запросов

Поиск мРНК актина человека:
tax_eq(9606) AND (description="actin" OR product="actin") AND moltype="mRNA"

Поиск генов актина:
tax_eq(9606) AND gene="actin"

Универсальный запрос:
tax_name="Homo sapiens" AND (gene="actin" OR product="actin")

Сильные стороны ENA

Современный и интуитивно понятный интерфейс
Мощный язык запросов с гибкими комбинациями условий
Прямая интеграция с данными секвенирования (SRA)
Быстрая скорость работы и выдачи результатов
Уникальные данные из европейских исследовательских проектов

Слабые стороны

Меньше обучающих материалов по сравнению с NCBI
Требует времени для освоения синтаксиса запросов
Ограниченные образовательные ресурсы и tutorials
Меньше вспомогательных инструментов для анализа

Практические рекомендации

Для начинающих:

Начинайте с поиска по известным accession numbers
Используйте быстрый поиск для простых запросов
Изучайте примеры успешных поисковых стратегий

Для опытных пользователей:

Осваивайте расширенный поиск с использованием логических операторов
Сохраняйте часто используемые запросы
Используйте ENA в комбинации с NCBI для получения полных результатов

Интеграция с другими ресурсами

ENA является частью глобальной сети баз данных и ежедневно обменивается данными с NCBI и DDBJ, обеспечивая согласованность информации во всех трех основных хранилищах.

Заключение

ENA представляет собой современную и эффективную платформу для работы с нуклеотидными последовательностями, особенно сильную в области доступа к raw-данным секвенирования и европейским исследовательским проектам. Хотя ENA может потребовать некоторого времени для освоения, она предлагает мощные возможности поиска и является ценным дополнением к инструментарию биоинформатика.

Национальный центр биотехнологической информации (NCBI)

Что это такое?

Национальный центр биотехнологической информации (National Center for Biotechnology Information, NCBI) — это ведущая американская организация, созданная в 1988 году как подразделение Национальной медицинской библиотеки США. Это главный мировой ресурс для получения биомедицинской и генетической информации.

Основные базы данных

PubMed — самая большая коллекция научных статей по медицине и биологии
Nucleotide — база данных последовательностей ДНК и РНК
Protein — хранилище белковых последовательностей
Gene — подробная информация о генах разных организмов
Genome — собранные геномы различных видов
SRA — архив raw-данных секвенирования
BLAST — знаменитый инструмент для сравнения биологических последовательностей

Как искать информацию в NCBI

Простой поиск

Единое поисковое окно на главной странице
Поиск сразу по всем базам данных
Быстрая фильтрация полученных результатов

Расширенный поиск

Доступен в каждой базе данных отдельно
Позволяет строить сложные запросы с помощью:
- Логических операторов (И, ИЛИ, НЕ)
- Указания полей поиска
- Готовых фильтров

Примеры поисковых запросов

Поиск генов актина человека:
"actin"[Gene Name] AND "Homo sapiens"[Organism]

Поиск полных мРНК:
"actin"[mRNA] AND "complete cds"[Filter]

Сильные стороны NCBI

Наиболее полная и авторитетная база данных
Все ресурсы объединены в единую систему
Отличные обучающие материалы и документация
Мощные инструменты для анализа данных
Постоянное обновление и техническая поддержка

Слабые стороны

Может показаться сложным для новичков
Иногда выдает слишком много результатов
Требует времени для полноценного освоения

Советы по использованию

Для начинающих:

Начните с простого поиска по известным терминам
Используйте фильтры для уточнения результатов
Осваивайте расширенный поиск постепенно

Важная информация

NCBI тесно связан с другими международными базами данных (ENA в Европе и DDBJ в Японии), что обеспечивает согласованность информации по всему миру.

Заключение

NCBI остается основным инструментом для большинства исследований в области молекулярной биологии благодаря своей надежности, полноте данных и мощным аналитическим возможностям.

DNA Data Bank of Japan (DDBJ)

Что это такое?

DNA Data Bank of Japan (DDBJ) — это японский центр нуклеотидных последовательностей, основанный в 1986 году. DDBJ является одним из трех международных партнеров в системе обмена данными вместе с NCBI (США) и ENA (Европа). Центр расположен в Национальном институте генетики в Мисиме, Япония.

Основные базы данных DDBJ

DDBJ Nucleotide Sequence Database — основная база данных последовательностей
DRA (DDBJ Sequence Read Archive) — архив данных высокопроизводительного секвенирования
GEA (DDBJ Genomic Expression Archive) — архив данных геномной экспрессии
JGA (Japanese Genotype-phenotype Archive) — архив японских геномных данных
BioProject — информация о биологических проектах

Как искать информацию в DDBJ

Базовый поиск

Поиск по ключевым словам через главную страницу
Поиск по accession numbers и версиям
Поиск по таксономической классификации

Расширенный поиск

Поиск с множественными критериями
Использование логических операторов:
- AND — логическое "И"
- OR — логическое "ИЛИ"
- NOT — логическое "НЕ"
Поиск по специфическим полям:
- organism — организм
- gene — название гена
- product — название продукта
- molecule — тип молекулы

Примеры поисковых запросов

Поиск генов актина человека:
organism:"Homo sapiens" AND gene:actin

Поиск мРНК актина:
organism:"Homo sapiens" AND product:actin AND molecule:"messenger RNA"

Поиск с несколькими условиями:
(organism:"Homo sapiens" OR organism:"Mus musculus") AND gene:actin

Сильные стороны DDBJ

Уникальные данные из азиатских исследовательских проектов
Специализация на данных японских и азиатских организмов
Полная интеграция с международной системой обмена данными
Поддержка японского и английского языков
Доступ к уникальным коллекциям микроорганизмов и растений Азии

Слабые стороны

Интерфейс может показаться устаревшим по сравнению с ENA
Меньшая известность за пределами Азии
Ограниченные обучающие материалы на английском языке
Меньше пользователей по сравнению с NCBI

Практические рекомендации

Для начинающих:

Начните с простого поиска по ключевым словам
Используйте фильтры для уточнения результатов
Ознакомьтесь с руководствами по поиску на сайте DDBJ

Для опытных пользователей:

Используйте расширенный поиск для сложных запросов
Изучайте уникальные азиатские datasets
Воспользуйтесь инструментами анализа DDBJ

Международное сотрудничество

DDBJ активно участвует в International Nucleotide Sequence Database Collaboration (INSDC) — международном сотрудничестве с NCBI и ENA. Это обеспечивает ежедневный обмен данными и поддержание согласованности информации во всех трех базах данных.

Особенности DDBJ

DDBJ особенно силен в области данных, связанных с азиатской флорой и фауной, включая уникальные виды риса, шелкопряда, а также различные морские организмы, характерные для азиатского региона. Центр также специализируется на данных японских исследовательских проектов и национальных геномных инициативах.

Заключение

DDBJ является важным компонентом глобальной системы биоинформатических ресурсов, предлагая уникальный доступ к азиатским геномным данным. Хотя интерфейс может быть менее современным, чем у ENA, DDBJ предоставляет ценную информацию, особенно для исследований, связанных с азиатскими организмами и специализированными проектами. Для полного охвата данных рекомендуется использовать все три основные базы данных в комбинации.

Возможные вопросы:

Как соотносится число фрагментов в геноме и количество хромосом?

Соотношение является идеальным. У дрожжей 16 хромосом. В сборке R64 мы видим 16 скаффолдов и 16 контигов. Это означает, что каждая биологическая хромосома собрана в один непрерывный фрагмент ДНК без пробелов. Совпадение числа скаффолдов и контигов (16=16) подтверждает, что в сборке отсутствуют пропуски (gaps), что и характеризует уровень 'Complete Genome'

Логика метрик N50/L50?

Представьте, что геном — это длинная книга, которую разрезали на множество фрагментов. Нам нужно понять, насколько хорошо она восстановлена. Для этого используют две ключевые метрики: N50 и L50.

N50 показывает длину характерного фрагмента сборки. Если мы возьмем все фрагменты, отсортируем их от самого длинного к самому короткому и начнем последовательно складывать их длины, то N50 — это длина того фрагмента, при добавлении которого суммарная длина впервые достигнет половины от общего размера генома.

L50 показывает, сколько фрагментов понадобилось для достижения этой половины. Это минимальное количество самых длинных фрагментов, которые в сумме покрывают 50% генома.

Практикум 7

1. Выбор качественной сборки эукариотического организма

Размножение:

Геном:

Поиск сборки генома выбранного организма

2. Основные характеристики выбранной сборки.

3. Файлы с информацией о сборке

4. Знакомство с поисковыми системами ENA и NCBI

A. Поиск в базе данных NCBI

Методика поиска:

Примеры других значений [PROP] для поиска (добавить через логический оператор AND)

4. Чтобы найти записи, относящиеся только к человеку, добавить в запрос AND "Homo sapiens"[Organism]

B. Поиск в базе данных ENA

Методика поиска:

Мнение:

6. Анализ распределения длин контигов в сборке генома Saccharomyces cerevisiae

Результаты анализа

Количественные показатели:

Наблюдения и выводы

Высокое качество сборки

Идеальное соответствие биологической организации

Эффективная организация генома

Визуальное подтверждение N50

Логарифмическое представление

Шпаргалка

European Nucleotide Archive (ENA)

Что это такое?

Основные компоненты ENA

Как искать информацию в ENA

Быстрый поиск (Quick Search)

Расширенный поиск (Advanced Search)

Примеры поисковых запросов

Сильные стороны ENA

Слабые стороны

Практические рекомендации

Для начинающих:

Для опытных пользователей:

Интеграция с другими ресурсами

Заключение

Национальный центр биотехнологической информации (NCBI)

Что это такое?

Основные базы данных

Как искать информацию в NCBI

Простой поиск

Расширенный поиск

Примеры поисковых запросов

Сильные стороны NCBI

Слабые стороны

Советы по использованию

Для начинающих:

Важная информация

Заключение

DNA Data Bank of Japan (DDBJ)

Что это такое?

Основные базы данных DDBJ

Как искать информацию в DDBJ

Базовый поиск

Расширенный поиск

Примеры поисковых запросов

Сильные стороны DDBJ

Слабые стороны

Практические рекомендации

Для начинающих:

Для опытных пользователей:

Международное сотрудничество

Особенности DDBJ

Заключение

Как соотносится число фрагментов в геноме и количество хромосом?

Логика метрик N50/L50?

Примеры других значений [PROP] для поиска (добавить через логический оператор `AND`)

4. Чтобы найти записи, относящиеся только к человеку, добавить в запрос `AND "Homo sapiens"[Organism]`