Практикум 12. Анализ транскриптомов

Task 1

Работа велась по сборке hg19 по 12 хромосоме. Использованные команды:

fastqc chr12.1.fastq
Процедура проверки качества ридов
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar
 SE -phred33 chr12.1.fastq chr12.1_trim.fastq TRAILING:20 MINLEN:50
Отброс ридов малой длины, обрезка с конца ридов оснований плохого качества
fastqc chr12.1_trim.fastq
Проверка качества ридов после триммирования
hisat2-build chr12.fasta chr12
Индексирование референса
hisat2 -x chr12 -U chr12.1.fastq --no-softclip -S chr12_rna.sam
Выравнивание ридов на референс
samtools view -b -o chr12_rna.bam chr12_rna.sam
Перевод картирования в бинарный формат
samtools sort chr12_rna.bam chr12_rna_sorted
Сортировка картирования
samtools index chr12_rna_sorted.bam
Индексирование картирования
htseq-count -i gene_id -s no -m union -f bam chr12_rna_sorted.bam 
gencode.v19.chr_patch_hapl_scaff.annotation.gtf -o chr12_rna_count.sam
Счет ридов: -i какой атрибут используется для индексирования (gene_id); -f формат входного файла (bam); -s взяты ли данные со специфичной цепи или нет (нет); -m счет если: union - из генов легло только на 1; i._strict - лег полностью только на 1 ген, i._nonempty - пересекается с геном, но можно понять, что относится только к нему.

Качество ридов до триммирования:[1]

Качество ридов после триммирования:[2]

Программа FastQC говорит, что с ридами все очень плохо, а после триммирования даже хуже (при том что качество отдельных оснований очень хорошее и вообще не изменилось).

До триммирования: 16451 рид. После триммирования: 16403 ридов. Работали с ридами до триммирования. Статистика hisat2:

16451 reads; of these:
16451 (100.00%) were unpaired; of these:
396 (2.41%) aligned 0 times
16055 (97.59%) aligned exactly 1 time
0 (0.00%) aligned >1 times

Картировалось хорошо, потому что однозначно.

В результате работы программы Htseq-count с приведенными в таблице выше параметрами был получен файл. В этом файле были такие строчки:

XF:Z:ENSG00000110955.415749ATP synthase F1 subunit beta
XF:Z:ENSG00000076108.710Bromodomain adjacent to zinc finger domain 2A
XF:Z:ENSG00000207031.18Small nucleolar RNA, C/D box 59A
XF:Z:__no_feature288-
XF:Z:__not_aligned396-

Как можно заметить, были риды, откартировавшиеся на один из трех генов, были риды, которые откартировались, но непонятно на что, были риды, не откартировавшиеся вообще. Далее в Ensembl мы искали, что это за гены и какие у них продукты. Оказалось, что большинство ридов были откартированы на ген, кодирующий одну из субъединиц АТФ-синтазы. Также интресно, что чуть-чуть ридов попали на ген одной из малых ядрышковых РНК типа C/D box. (У гена всего один продукт - snRNA, она и попала в проанализированную часть транскриптома, видимо, метилировала что-то). Про продукт второго гена BAZ2A известно, что он может связываться с гистоном H3, таким образом регулирует эпигенетические процессы и вообще его экспрессия ассоциирована с различными видами рака.

НАЗАД