Учебный сайт Птицыной Елены

Cтудентки первого курса факультета биоинженерии и биоинформатики Московского государственного университета имени М.В. Ломоносова

Семестр 3, практикум 12

Назад на учебную страницу Птицыной Елены

Анализ транскриптомов.

Задача этого практикума - картировать чтения, полученные в результате секвенирования транскриптома.

Команды

$ cp /nfs/srv/databases/ngs/Human/rnaseq_reads/chr16.2.fastq /nfs/srv/databases/ngs/elena-pt/pr12/ Копирование данных
$ cd /nfs/srv/databases/ngs/elena-pt/pr12 Переход в рабочую папку
$ fastqc chr16.2.fastq Анализ качества
$ java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr16.2.fastq cleaned.fastq TRAILING:20 Отбор ридов качеством выше 20. Результат: Input Reads: 9517 Surviving: 9517 (100,00%) Dropped: 0 (0,00%)
$ java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 cleaned.fastq cleaned.45.fastq MINLEN:45 Отбор последовательностей длины более 45. Результат: Input Reads: 9517 Surviving: 9512 (99,95%) Dropped: 5 (0,05%)
$ fastqc cleaned.45.fastq Анализ качества после триммирования
$ hisat2-build ../chr16.fasta indexed Индексирование файла, скачанного в практикуме 11
$ hisat2 -x indexed -U cleaned.45.fastq -S samchr16.2.sam --no-softclip Картирование чтений на проиндексированную рефернсную последовательность без параметра --no-spliced-alignment (так как мРНК уже созрели и в них нет интронов, а выравниваем на ДНК-последовательность с интронами). Результат: 9512 reads; of these: 9512 (100.00%) were unpaired; of these: 152 (1.60%) aligned 0 times, 9360 (98.40%) aligned exactly 1 time, 0 (0.00%) aligned >1 times, 98.40% overall alignment rate.
$ samtools view samchr16.2.sam -b >> bam.bam Перевод из sam в bam (бинарный формат)
$ samtools sort bam.bam sortedbam Сортировка выравнивания по координате в референсе
$ samtools index sortedbam.bam Индексирование отсортированного файла
$ htseq-count -i gene_id -s no -m union -f bam sortedbam.bam /nfs/srv/databases/ngs/Human/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf -o count.sam >> count.txt Подсчёт ридов с параметрами: -i (задание атрибута gff, который будет использоваться как feature ID), -s (yes или no – надо учитывать 1 или 2 направления считывания), -m (режим обработки ридов, входящих в несколько features – см. иллюстрацию работы режимов), -f (указывает на формат входного файла bam/sam).Результат: Идентификаторы генов с числами (в основном 0) и __no_feature 3834__ambiguous 0 __too_low_aQual 0 __not_aligned 152 __alignment_not_unique 0

Исходное количество чтений

9517 (см. вывод Trimmomatic: после отбора по качеству Input Reads: 9517 Surviving: 9517 (100,00%) Dropped: 0 (0,00%), после отбора по длине Input Reads: 9517 Surviving: 9512 (99,95%) Dropped: 5 (0,05%))

До и после очистки

Программа trimmomatic отбросила 5 (0,05%) последовательностей.

Графики качества чтения оснований были сгненерированы fastqc (рис.1) На этих графиках красной линий обозначается медиана, желтый блок означает межквартильный диапазон, верхние и нижние усы - 10 и 90%, синяя линия - среднее значение. По оси y отложены quality scores. До очистки качество чтения было и так хорошее, график совсем не изменился, ведь trimmomatic отбросила 0 последовательностей при отборе по длине.

Пример 1
Рисунок 1. График Per base sequence quality до и после очистки не изменился.

К сожалению, очистка trimmomatic привела к ухудшению проблемам с Per tile sequence quality (рис.2), поэтому, возможно, эту операцию не стоило проводить.

Пример 2
Рисунок 2. Per tile sequence quality до и после очистки.

Картирование

9360 последовательностей aligned exactly 1 time. Можно сказать, что качество хорошее, так как это составляет 98.40% от всех последовательностей. Кроме того, 0 последовательностей было выровнено более 1 раза. Cм. вывод hisat2-build:

9512 reads; of these:
9512 (100.00%) were unpaired; of these:
152 (1.60%) aligned 0 times
9360 (98.40%) aligned exactly 1 time
0 (0.00%) aligned >1 times
98.40% overall alignment rate 

Подсчёт чтений

Программа htseq-count вывела список Ensembl идентификаторов генов с соответствующими количествами чтений и показала, что:

__no_feature    3834
__ambiguous     0
__too_low_aQual 0
__not_aligned   152
__alignment_not_unique  0

Всего 5526 чтений легло на ENSG00000166501.8. ENSG00000166501 кодирует protein kinase C beta. Протеинкиназы C - семейство протеинкиназ, активируемых кальцием и вторичным мессенджером диацилглицеролом и вовлеченных во множество сигнальных путей в клетке. Эта киназа известна способностью к активации B-клеток, индукции апоптоза и пролиферации клеток эндотелия.