Главная страница
term3 🕒

Анализ транскриптомов

TASK1-3. Анализ качества, картирование чтений и анализ выравнивания

команда
функция
fastqc chr15.1.fastq
анализ качества чтений
Выходной файл chr15.1_fastqc.html
hisat2-build chr15.fasta file
Индексирование референсной последовательности	
hisat2 -x file -U chr15.1_trim.fastq --no-softclip > alignrna.sam
Построение выравнивания прочтений и референса в формате .sam
Выходной файл:alignrna.sam
В данном случае не был использован параметр --no-spliced-alignment,
(Disable spliced alignment), который не допускает вариантов multiexon genes,
что в данном случае может привести к получению плохого покрытия 
Длина = 102531392, число откартированных чтений = 9795 и неоткартированных = 43
samtools view alignrna.sam -b > alignrna.bam
Перевод выравнивания чтений с референсом в бинарный формат .bam
Выходной файл alignrna.bam
samtools sort alignrna.bam -T align.txt -o sortalignrna.bam
Сортировка выравнивания чтений с референсом по координате в референсе начала чтения
Выходной файл sortalignrna.bam
samtools index sortalignrna.bam
Индексация отсортированного sortalignrna.bam файла
Выходной файл sortalignrna.bam.bai
samtools idxstats sortalignrna.bam > inforna
Информация о числе чтений, откартированных на геном
Выходной файл inforna
В файле inforna представлены числа откартированных(9795) и неоткартированных 
на хромосому чтений(43), длина последовательности хромосомы(102531392) и ее 
имя(chr15).
htseq-count -f bam -s no sortalignrna.bam /P/y14/term3/block4/SNP/rnaseq_reads/
gencode.v19.chr_patch_hapl_scaff.annotation.gtf >> htseq-count.txt
Подсчитывает число чтений по определённому критерию
Выходной файл htseq-count.txt
			                	

1. "Per base quality"
TASK4. Подсчет чтений

htseq-count -f bam -s no sortalignrna.bam /P/y14/term3/block4/SNP/rnaseq_reads/
gencode.v19.chr_patch_hapl_scaff.annotation.gtf >> htseq-count.txt
Опции:

-f - выбор формата входных данных: .bam или .sam

-s - Направление цепи: прямое, обратное, нет направления
Следующие 2 параметра были взяты по умолчанию
-i - Атрибут GFF как feature ID

-m - Режим обработки чтений, покрывающих более одной особенности
     				
				TASK5.  Анализ результатов
				
__no_feature 2500 __ambiguous 315 __too_low_aQual 0 __not_aligned 43 __alignment_not_unique 0 Всего 9891 прочтение. Из выдачи следует, что получено 2500 неотркартированных рида. 315 откартированы на несколько генов. ENSG00000128918.10 6954 ENSG00000259477.1 14 ENSG00000259285.1 12 Найдено 3 гена,на которые легли чтения, описание ниже:
gene_id
Количество ридов
Тип гена
Имя гена
Белок (Uniprot)
ENSG00000128918.10
5379
Protein coding
ALDH1A2
Retinal dehydrogenase 2
ENSG00000259477.1
14
Pseudogene
-
-
ENSG00000259285.1
12
Antisense
-
-

Дегидрогеназа сетчатки - это фермент, принадлежащий к семейству оксидоредуктаз (UniProt AC: O94788).
Length:518
Mass (Da):56,724
Recognizes as substrates free retinal and cellular retinol-binding protein-bound retinal. Does metabolize octanal and decanal but does not metabolize citral, 
benzaldehyde, acetaldehyde and propanal efficiently (By similarity).

2. Retinal dehydrogenase 2

© Цыганов Кирилл, 2017