NGS - bulk RNA-seq

Вспоминаем особенности пробоподготовки

Что нужно узнать?

  • Прибор

  • Качество РНК

  • Тип библиотеки (полиА, деплеция рРНК, малые РНК, …)

  • Ориентированность

  • PE/SE

  • Длинна чтений

  • Размер библиотеки

  • Количество реплик (биологических, технических)

  • Дизайн исследования (дифференциальная экспрессия, поиск новых транскриптов, анализ малых РНК, …)

Стандарты

от ENCODE

Чтения

  • снова .fastq.gz

  • снова проверяем качество (fastQC)

  • проверяем наличие адаптеров

  • аккуратней с триммированием (3`-bias)

  • дубликаты не всегда плохо

Что дальше?

Варианты

развития событий

  • картирование на референсный геном

  • картирование на референсный транскриптом

  • псевдовыравнивание (kallisto)

  • сборка транскриптома de novo

Картирование

В чем принципиальное отличие картирования на референсный геном ДНК-чтений (экзом) и РНК-чтений (полиА)?

Картирование

HISAT2

  • опять sam/bam

  • снова смотрим % картированных чтений

  • обратите внимание на поле CIGAR

Как быть с индексами генома?

Квантификация

HTSeq-count

Квантификация

Проверяем, сколько чтений попало в границы разметки

Работает с уникально-картированными чтениями

Что делать, если мало?

Варианты

  • множественное картирование

  • выравнивание мимо разметки -> сборка транскриптов (+ референсный gtf - не de novo!; без референсного gtf - de novo)

featureCounts

раз

два

три

Что на выходе?

  • один образец -> экспрессионный профиль

  • много образцов -> много экспрессионных профилей -> дифференциальная экспрессия как возможный вариант анализа

Технические задачи

  • Построение экспрессионного профиля

  • Анализ дифференциальной экспрессии

  • Поиск новых генов и транскриптов

  • Исследование структуры транскриптов

  • Анализ дифференциального сплайсинга

  • Модификации РНК

  • Построение генных сетей

Gviz

Если есть свой gtf -> makeTxDbFromGFF

Если есть свой bam -> AlignmentsTrack OR DataTrack

Давайте

посмотрим покрытие чтениями какого-нибудь гена

Что будем делать?

Достанем кусочек bam

samtools view -hb chr3.bam 3:48550000-48600000 > COL7A1.bam
samtools index COL7A1.bam

Пример

ref

ggtern

Тернарный график, треугольная диаграмма

library(ggtern)

data <- data.frame(
  A = c(0.1),
  B = c(0.6),
  C = c(0.3)
)
data
    A   B   C
1 0.1 0.6 0.3

ggtern

ggtern(data = data, aes(A, B, C)) +
  geom_point(alpha = 0.7, size = 3, color = "blue") +
  theme_rgbw() +
  labs(title = "Basic Ternary Plot")

Nature!

ref

Конец!