NGS и форматы файлов

  • fasta

  • fastq

  • sam

  • bam

  • cram

  • vcf

  • gvcf

  • bed

  • gtf

  • gff

  • bedGraph

  • bigBed

  • bigWig

  • tab

  • txt

Форматы файлов

UCSC

Пайплайн

Программный конвейер

Зачем…

… биоинформатику знать, что происходит в пробирке?

Для каждого экспериментального протокола нужны определенные входные данные и свой биоинформатический протокол обработки данных

При этом практически каждый шаг можно реализовать несколькими программами

NGS: инструментарий

Картировщики

Benchmarks

Поддерживайте свои знания о профессиональном ПО на актуальном уровне

Метрики

Исходные чтения

  • Количество чтений

  • При парноконцевом протоколе: кол-во прямых чиений = кол-ву обратных

  • Качество чтений

  • Длина чтений

  • Наличие адаптеров

Метрики

Триммирование

Триммировать можем адаптеры и/или нуклеотиды плохого качества

  • % оставшихся прочтений / пар прочтений

  • распределение длины

  • % оставшихся букв

Метрики

Картирование чтений на референс

  • % картированных чтений

  • % уникально картированных чтений

  • % properly paired для парно-концевых чтений

  • % чтений, попавших в границы таргета, если он есть

  • % чтений, попавших в границы расширенного таргета, если он есть

Картирования: uniq, primary, secondary

Метрики

Variant calling

  • кол-во snp и indel

  • % snp и indel с хорошими покрытием и качеством

  • % snp и indel в таргете, если есть

  • количество гомо- и гетерозигот

Метрики

Аннотация вариантов

Имена хромосом

Разные консорциумы

“chr1” - “1” - “NC_000001.11”

BEDtools

manual раз

manual два

Очень хороший инструмент для работы с геномными интервалами

Более 35 опций + параметры

GTF

Спецификация GENCODE

Спецификация Ensembl

VCF

Спецификация

Multiple VCF

В одном VCF файле может быть представлена информация сразу о нескольких образцах

В конце будут добавлены столбцы на каждый образец

QUAL – максимальный из возможных

Смоделируем ситуацию

Вам дали чтения в формате .fastq

Сказали: иди, анализируй!

Ваши действия?

Анализ NGS

  • Четко представлять общую задачу

  • Знать биологический объект (организм, клеточная линия, ткань)

  • Представлять особенности пробоподготовки и дизайн эксперимента

  • Оценить объем и качество входных данных

  • Узнать на каком приборе было проведено секвенирование

  • Выбрать версию референсного генома, если он используется, и оценить его качество

  • При использовании дополнительных данных (например, разметка генов) зафиксировать версию файла и соотнести с версией выбранного генома

  • Четко фиксировать все шаги программного конвейера, включая версии программ и пакетов, сохранять и комментировать код

  • Проверять объем данных на каждом этапе

  • Проверять качество каждого шага протокола обработки

  • Вести лабораторный журнал (!)

  • Бэкапы!

  • Результаты лучше всего хранить в статьях =)

Конец!