Анализ транскриптомов - Учебный сайт Орлова Артёма

Практикум 12. Анализ транскриптомов.

В данном практикуме на 15 хромосому были картированы чтения, полученные в результате секвенирования транскриптома.

Использованные команды для вызова программ

Описание использованных команд приведено в таблице 1.

**Таблица 1**
Команда	Описание
fastqc chr15.1.fastq	Анализирует качество чтений
hisat2 -x ../chr15 -U chr15.1.fastq --no-softclip -S pr12_map.sam	Строит выравнивание прочтений и референса в sam-формате (опция --no-spliced-alignment убрана, так как сплайсинг следует учитывать)
samtools view pr12_map.sam -b -o pr12_map.bam	Переводит sam-файл в бинарный формат
samtools sort pr12_map.bam pr12_map_sorted	Сортирует прочтения по координате начала чтения в референсе
samtools index pr12_map_sorted.bam	Индексирование бинарного файла
htseq-count -f bam -s no -i gene_id -m union pr12_map_sorted.bam gencode.v19.chr_patch_hapl_scaff.annotation.gtf > pr12_reads.count	Подсчитывает чтения по указанной разметке Опции: -f: формат входного файла -s: специфичность по цепи -i: атрибут разметки для feature -m: способ разрешения случаев перекрываний нескольких генов
htseq-count -f bam -s no -i gene_id -m intersection-strict pr12_map_str_sorted.bam gencode.v19.chr_patch_hapl_scaff.annotation.gtf > pr12_reads_str.count	По сравнению с предыдущей командой меняется опция -m на intersection-strict.
grep -E -v '0$' pr12_reads.count	Вытаскивает строки с попаданием чтений на гены

Анализ качества чтений

Был получен html-отчёт анализа качества чтений. Основные данные о качестве приведены на рисунке 1.

Рис.1 — **Рисунок 1.** Качество чтений оказалось хорошим, так как чтения обладают качеством более 28.

Картирование чтений

Чтения были картированы на 15 хромосому (аналогично предыдущему практикуму) с учётом сплайсинга. Вывод программы:

9891 reads; of these:
  9891 (100.00%) were unpaired; of these:
    44 (0.44%) aligned 0 times
    9847 (99.56%) aligned exactly 1 time
    0 (0.00%) aligned >1 times
99.56% overall alignment rate

Картирование вышло хорошим, только 0.44% процента от числа чтений не попали в выравнивание. Затем после обработки программами samtools чтения были визуализированы в IGV (рисунок 2).

Рис.2 — **Рисунок 2.** В IGV видно, что в транскриптомных чтениях заметны места интронов, разделяющих чтения. Подобное отсутствует при геномных прочтениях.

Подсчет чтений

Были подсчитаны чтения по gtf-разметке. Затем получился результат grep:

ENSG00000259285.1       12
ENSG00000259477.1       14
__no_feature    2505
__ambiguous     326
__not_aligned   44

2505 чтений не попали в гены, для 326 возникла спорная ситуация (например, попадание в 2 гена одновременно), а 44 чтения не были выровнены. Первый ген - длинная некодирующая РНК. Другой ген - это процессированный псевдоген калпонина-2, белка, связанного с клеточной пролиферацией, подвижностью и адгезией.

Всё вышеописанное в практикуме было также сделано для реплики (chr15.2.fastq). Результат:

ENSG00000128918.10      5408
ENSG00000259285.1       4
__no_feature    2267
__ambiguous     159
__not_aligned   35

Ген с 5408 попаданиями чтений кодирует альдегиддегидрогеназу, фермент, окисляющий альдегиды до кислот. По сравнению с репликой, чтений, попавших в гены, стало гораздо больше.

Для chr15.2.fastq c полностью попавшими чтениями в гены (опция -m intersection-strict):

ENSG00000128918.10      5378
ENSG00000259285.1       5
__no_feature    2357
__ambiguous     98
__not_aligned   35

В целом число попаданий чтений в ген уменьшилось, но изменение опции разрешило более трети спорных ситуаций.