Анализ транскриптомов

Анализ качества и картирование чтений

команда функция
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr14.1.fastq chr14.1_trim.fastq TRAILING:20 MINLEN:50 Очистка чтений
hisat2 -x chr14 -U chr_trim.fastq --no-softclip > 14.1_align.sam Создание выравнивания референсной последовательности и прочтений (был убран параметр "--no-spliced-alignment", т.к. выравнивают транскипты с референсной последовательностью)
samtools view 14.1_align.sam -bo 14.1_align.bam Перевод выравнивания в бинарный формат
samtools sort 14.1_align.bam -T file.txt -o 14.1_alignsort.bam Сортировка бинарного выравнивания
Картинка качества ридов после очистки.

Подсчет чтений

hisat2 --no-softclip -x chr14 -U chr14.1_trim.fastq -S 14.1_align.sam &> result.log | Выравнивает риды с референсной последовательностью, сохраняя информацию о работе программы в файл result.log.

Из файла result.log можно узнать следующие данные о картировании. 18134 было непарных ридов, 47 не были картированы, 18087 были картированы ровно 1 раз, 0 картировано больше одного раза

htseq-count -f 14.1_bam align.bam -m -i gene_id -s /P/y14/term3/block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf | Посчитывает, сколько раз на ген попали последовательности из ридов с различными параметрами.

вывод программы:

__no_feature 5266

__ambiguous 0

__too_low_aQual 0

__not_aligned 20

__alignment_not_unique 8

grep -v '0$' count.out > ww | Найти все гены, на которые лег хотя бы 1 рид.

вывод программы:

ENSG00000078304.15	2057
ENSG00000165409.11	372
ENSG00000188655.6	325
ENSG00000258915.1	336
ENSG00000259161.2	27
ENSG00000259167.2	87
ENSG00000271656.1	18
ENSG00000271705.1	52

Опции:

-f или --format: формат файла (.bam или .sam) с выравниванием (по умолчанию sam)/

-i или --idattr: какой использовать атрибут GFF в качестве feature ID (по умолчанию gene_id).

-s или --stranded: yes - считать только по прямой цепи, no - считать без учета цепи, reverse - считать только по обратной полследовательности.

-m или --mode: определяет, как считать различное наложение рида на гены в том случае, когда это неоднозначно. Есть 3 режима: union, intersection-strict и intersection-nonempty. Риду присваивается свойство в зависимости от режима работы. Свойство no_feature означает, что рид не попал ни на один ген, свойство ambiguous - рид попадает на несколько генов и не может однозначно быть соотнесён с конкретным геном.

Обзор самого покрытого гена ENSG00000078304.15>

Это ген. кодирующий белок человеческой фосфотазы 2.

Строение гена из базы данных UCSCБ