Анализ качества
Команда | Описание |
---|---|
fastqc chr12.1.fastq |
Выдает график оценки качества нуклеотидов и некоторую другую информацию о последовательности. Выполнялась дважды. |
java -jar \ /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE \ -phred33 chr12.1.fastq trimmed12.fastq SLIDINGWINDOW:10:28 MINLEN:50 |
Обрезает концы плохого качества (по 10 со средним качеством ниже 28, оставляя только прочтения >50bp). |
Количество прочтений уменьшилось после чистки с 16451 до 15850. Отсеялись непопавшие под критерии риды (критерии в таблице команд). Стоит отметить, что прочтения и так были хорошего качества.
Картирование чтений
Команда | Описание |
---|---|
/home/students/y06/anastaisha_w/hisat2-2.0.5/hisat2 \ ../chr12 trimmed12.fastq -S alg_chr12.1.sam --no-softclip |
Использовался индекс пр. 11. Строит выравнивание рида и референса. Убран параметр, запрещающий сплайсинг, который происходит при созревании РНК. |
samtools view -b -o alg_chr12.1.bam alg_chr12.1.sam |
Перевод выравнивания в бинарный формат. |
samtools sort alg_chr12.1.bam sorted_chr12.1 |
Сортирует выравнивания по координатам начала. |
samtools index sorted_chr12.1.bam |
Индексация файла. |
Всего очищенный файл содержит 15850 рида, все непарные. 375 из них не выравнены, 61 более 1 раза, остальные ровно один раз.
Подсчет чтений и анализ результатов
Команда | Описание |
---|---|
htseq-count -f 'bam' -s 'reverse' -i 'gene_id' \ -m 'union' sorted_chr12.1.bam \ /P/y14/term3/block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf \ >> counter_out |
Формирует бинарный файл с полиморфизмами. -f - формат; -s - является ли ввод специфичной цепью; -i - аттрибут особенности в GFF для ID; -m - способ учета пересечений, union; |
__no_feature 272 __ambiguous 0 __too_low_aQual 0 __not_aligned 375 __alignment_not_unique 0
Покрыто всего три гена :
ENSG00000076108.7 9 BAZ2A Transcription termination factor I-interacting protein 5 ENSG00000110955.4 15189 ATP5B АТФ синтаза, бета субъединица ENSG00000207031.1 8 SNORD59 Малая ядрышковая РНКСамый покрытый ген - ген каталитической субъединицы АТФ синтазы, которая вместе вместе с альфа субъединицей образует гексамер, который и катализирует синтез АТФ из АДФ.
272 чтения не имеет соответствующего гена. Судя по IGV (см. ниже) и выдаче samtools depth, все чтения лежат в окрестностях ATP5B. Причем большая часть чтений лежит ниже гена (с 3' гена).