Практикум 12. Анализ транскриптомов. Bedtools

Задание №1. Подготовка референса и чтений

Командная строка Функция
 fastqc chr20.1.fastq 
Обработка FastQC
 java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr20.1.fastq chr20.1_trim.fastq TRAILING:20 MINLEN:50 
Обрезание концов
 hisat2-build chr20.fasta indexed 
Индексирование
 hisat2 -x indexed -U chr20.1_trim.fastq -S chr20.1_aligntoref.sam --no-softclip 
Картирование чтений из fastq (по индексированной последовательности)
 samtools view -b chr20.1_aligntoref.sam -o chr20.1_align.bam 
Конвертнация в .bam
 samtools sort chr20.1_align.bam chr20.1_align_sorted 
Сортировка по координате в начале чтения
 samtools index chr20.1_align_sorted.bam 
Индексация отсортированного .bam
 htseq-count -i gene_id -s no -m union -f bam chr20.1_align_sorted.bam 
	/nfs/srv/databases/ngs/Human/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf -o count.sam >> ready.txt 
Подсчитывает чтения по указанной разметке
Опции:
-f: формат входного файла
-s: специфичность по цепи
-i: атрибут разметки для feature
-m: способ разрешения случаев перекрываний нескольких генов
 grep -E -v '0$' ready.txt 
Вытаскивает строки с попаданием чтений на гены

Задание №2. Анализ результатов FastQC

До обрезки:

мое фото

После обрезки:

мое фото
Результаты:
 Input Reads: 3565 Surviving: 3530 (99,02%) Dropped: 35 (0,98%) 

В результате ~99% сохранились, что не особо отличаетя от изначальных данных.

Задание №3. Анализ картирования чтений

98.81% чтений были картированы на хромосому, качество можно считать довольно высоким

 3530 reads; of these:
	3530 (100.00%) were unpaired; of these:
	42 (1.19%) aligned 0 times
	3488 (98.81%) aligned exactly 1 time
	0 (0.00%) aligned >1 times
	98.81% overall alignment rate 

Задание №4. Подсчёт чтений

Из файла, полученного при грепировании файла-результата команды htseq-count, узнаем, сколько ридов легли на конкретный ген.
	ENSG00000125835.13      2081
	ENSG00000251806.1       4
	__no_feature    274
	__ambiguous     1129
	__not_aligned   42
	

274 чтения не попали в гены, для 1129 возникла спорная ситуация (например, попадание в 2 гена одновременно), а 42 чтения не были выровнены.

Белок, кодируемый геном ENSG00000125835.13, является одним из нескольких ядерных белков, которые часто встречаются среди мелких частиц рибонуклеопротеинов U1, U2, U4 / U6 и U5 (snRNP). Эти snRNPs участвуют в сплайсинге пре-мРНК, и кодированный белок также может играть роль в сплайсинге пре-мРНК или структуре snRNP.