Анализ транскриптома

Анализ качества

Таблица 1. Команды и их описание
Команда Описание
fastqc chr12.1.fastq
			

Выдает график оценки качества нуклеотидов и некоторую другую информацию о последовательности. Выполнялась дважды.

java -jar \
/nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE \
-phred33 chr12.1.fastq trimmed12.fastq SLIDINGWINDOW:10:28 MINLEN:50
			

Обрезает концы плохого качества (по 10 со средним качеством ниже 28, оставляя только прочтения >50bp).

Рис. 1. Качество до и после чистки.

Количество прочтений уменьшилось после чистки с 16451 до 15850. Отсеялись непопавшие под критерии риды (критерии в таблице команд). Стоит отметить, что прочтения и так были хорошего качества.

Картирование чтений

Таблица 2. Команды
Команда Описание
/home/students/y06/anastaisha_w/hisat2-2.0.5/hisat2 \
../chr12 trimmed12.fastq -S alg_chr12.1.sam --no-softclip
			

Использовался индекс пр. 11. Строит выравнивание рида и референса. Убран параметр, запрещающий сплайсинг, который происходит при созревании РНК.

samtools view -b -o alg_chr12.1.bam alg_chr12.1.sam 
			

Перевод выравнивания в бинарный формат.

samtools sort alg_chr12.1.bam sorted_chr12.1
			

Сортирует выравнивания по координатам начала.

samtools index sorted_chr12.1.bam
			

Индексация файла.

Всего очищенный файл содержит 15850 рида, все непарные. 375 из них не выравнены, 61 более 1 раза, остальные ровно один раз.

Подсчет чтений и анализ результатов

Таблица 3. Команды
Таблица 1. Команды и их описание
Команда Описание
htseq-count -f 'bam' -s 'reverse' -i 'gene_id' \
-m 'union' sorted_chr12.1.bam \
/P/y14/term3/block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf \
>> counter_out
			

Формирует бинарный файл с полиморфизмами. -f - формат; -s - является ли ввод специфичной цепью; -i - аттрибут особенности в GFF для ID; -m - способ учета пересечений, union;

__no_feature	        272
__ambiguous	        0
__too_low_aQual	        0
__not_aligned	        375
__alignment_not_unique	0
		

Покрыто всего три гена :

ENSG00000076108.7	9        BAZ2A   Transcription termination factor I-interacting protein 5
ENSG00000110955.4	15189    ATP5B   АТФ синтаза, бета субъединица
ENSG00000207031.1	8        SNORD59 Малая ядрышковая РНК
		  
Самый покрытый ген - ген каталитической субъединицы АТФ синтазы, которая вместе вместе с альфа субъединицей образует гексамер, который и катализирует синтез АТФ из АДФ.

272 чтения не имеет соответствующего гена. Судя по IGV (см. ниже) и выдаче samtools depth, все чтения лежат в окрестностях ATP5B. Причем большая часть чтений лежит ниже гена (с 3' гена).

Рис. 2. Снапшот IGV окрестности гена ATP5B/ATP5F1B

© Бушмакин Илья, 2017