Построение выравнивания прочтений и референса в формате .sam
Выходной файл:alignrna.sam
В данном случае не был использован параметр --no-spliced-alignment,
(Disable spliced alignment), который не допускает вариантов multiexon genes,
что в данном случае может привести к получению плохого покрытия
Длина = 102531392, число откартированных чтений = 9795 и неоткартированных = 43
samtools view alignrna.sam -b > alignrna.bam
Перевод выравнивания чтений с референсом в бинарный формат .bam
Выходной файл alignrna.bam
Информация о числе чтений, откартированных на геном
Выходной файл inforna
В файле inforna представлены числа откартированных(9795) и неоткартированных
на хромосому чтений(43), длина последовательности хромосомы(102531392) и ее
имя(chr15).
htseq-count -f bam -s no sortalignrna.bam /P/y14/term3/block4/SNP/rnaseq_reads/
gencode.v19.chr_patch_hapl_scaff.annotation.gtf >> htseq-count.txt
Подсчитывает число чтений по определённому критерию
Выходной файл htseq-count.txt
TASK4. Подсчет чтений
htseq-count -f bam -s no sortalignrna.bam /P/y14/term3/block4/SNP/rnaseq_reads/
gencode.v19.chr_patch_hapl_scaff.annotation.gtf >> htseq-count.txt
Опции:
-f - выбор формата входных данных: .bam или .sam
-s - Направление цепи: прямое, обратное, нет направления
Следующие 2 параметра были взяты по умолчанию
-i - Атрибут GFF как feature ID
-m - Режим обработки чтений, покрывающих более одной особенности
TASK5. Анализ результатов
__no_feature 2500
__ambiguous 315
__too_low_aQual 0
__not_aligned 43
__alignment_not_unique 0
Всего 9891 прочтение. Из выдачи следует, что получено 2500 неотркартированных рида.
315 откартированы на несколько генов.
ENSG00000128918.10 6954
ENSG00000259477.1 14
ENSG00000259285.1 12
Найдено 3 гена,на которые легли чтения, описание ниже:
gene_id
Количество ридов
Тип гена
Имя гена
Белок (Uniprot)
ENSG00000128918.10
5379
Protein coding
ALDH1A2
Retinal dehydrogenase 2
ENSG00000259477.1
14
Pseudogene
-
-
ENSG00000259285.1
12
Antisense
-
-
Дегидрогеназа сетчатки - это фермент, принадлежащий к семейству оксидоредуктаз (UniProt AC: O94788).
Length:518
Mass (Da):56,724
Recognizes as substrates free retinal and cellular retinol-binding protein-bound retinal. Does metabolize octanal and decanal but does not metabolize citral,
benzaldehyde, acetaldehyde and propanal efficiently (By similarity).