Анализ транскриптомов

Номер хромосомы: 21. Взяла первую биологическую реплику.

Табл. 1. Использованнные команды.
Команда Описание
cd /nfs/srv/databases/ngs/vera.sdrv Зашла к себе в папку
cp ../Human/rnaseq_reads/chr21.1.fastq . Скопировала чтения к себе
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr21.1.fastq 21.1out.fastq TRAILING:20 MINLEN:50 Почистила чтения
fastqc 21.1out.fastq Сделала анализ чтений
hisat2 -x chr21 -U 21.1out.fastq --no-softclip -S 12out.sam Картировала. Без --no-spliced-alignment, потому что транскриптом, а значит мог быть сплайсинг, а значит в одном чтении могут быть куски от двух соседних экзонов.
samtools view 12out.sam -b -o aln12.bam Перевела выравнивание из .sam в .bam (бинарный)
samtools sort aln12.bam -T temp -o sorted12.bam Отсортировала
samtools index sorted12.bam Проиндексировала
htseq-count -f bam sorted12.bam -s no -i gene_id ../Human/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf -m union > reads_counts Подсчитала, сколько ридов куда легли. -f: формат файла с выравниванием; -s: одна(какая) или обе цепочки используются; -i: атрибут gff, используемый в качестве feature ID; -m: режим определения наложения рида на ген
grep -wv 0 reads_counts > result.txt Достала из файла ненулевые значения

В процессе триммирования отсеялись всего лишь 0.56% прочтений. Работаем с 11158 чтениями. Вот их качество:

График
Рис. 1. FastQC. Качество чтений после тримминга.

Картирование:

11158 reads; of these:
  11158 (100.00%) were unpaired; of these:
    281 (2.52%) aligned 0 times
    10877 (97.48%) aligned exactly 1 time
    0 (0.00%) aligned >1 times
97.48% overall alignment rate

Немного погуглила, сделала вывод, что 97.48% - очень хорошо для транскриптома.

Анализ результатов подсчёта чтений:

ENSG00000156256.10      111
ENSG00000156261.8       10337
ENSG00000231125.2       21
__no_feature    408
__not_aligned   281

Итак, 10469 в сумме легли на 3 гена. В основном представлен ENSG00000156261.8 (CCT8, chaperonin containing TCP1 subunit 8). Из названия понятно, что это субъединица белка, участвующего в осуществелении фолдинга других белков.
Два других гена: ENSG00000156256.10 (USP16, ubiquitin specific peptidase 16) - фермент, деубиквитинирующий Н2А во время митоза; ENSG00000231125.2 - какой-то новый транскрипт для ССТ8, о нём особо ничего не пишут.
408 ридов легли в неизвестность.