Анализ транскриптомов

Команды
FastQC Анализ качества чтений.
fastqc chr15.2.fastq
Trimmomatic Очистка чтений
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE 
-phred33 chr15.2.fastq chr15_new.fastq TRAILING:20 MINLEN:50
hisat2-build Индексирование референсной последовательности
hisat2-build chr15.fasta chr15
hisat2 с параметром --no-softclip Выравнивание прочтений и референса в формате .sam.
hisat2 -x chr15 chr15_new.fastq --no-softclip >> alignment.sam
samtools view Перевод выравнивания чтений с референсом в бинарный формат .bam
samtools view alignment.sam -b >> alignment.bam
samtools sort Сортировка выравнивания чтений с референсом (получившийся после картирования .bam файл) по координате в референсе начала чтения
samtools sort alignment.bam -T alignment.txt -o sort.bam
samtools index Индексирование отсортированный .bam файл
samtools index sort.bam
samtools idxstats Выдача статистики в индексном файле, соответствующем входному файлу.
samtools idxstats sort.bam >> idxstats.txt
htseq-count Подсчет числа чтений по определённому критерию
htseq-count -f bam -s no sort.bam /P/y14/term3/block4/SNP/rnaseq_reads/
gencode.v19.chr_patch_hapl_scaff.annotation.gtf >> htseq-count.txt

1. Анализ качества чтений.
Для выполнения данного задания взят файл chr20.1.fastq. С помощью программы FastQC проанализируем качество чтений.
Общее число последовательностей составляет 3565, длина составляет 41-51.
Чтения хорошего качества, поэтому применение программы trimmomatic не требуется.


2. Картирование чтений и 3. Анализ выравнивания.
При запуске Hisat2 нужно убрать параметр --no-spliced-alignment,
т.е. разрешаем разрезать прочтения, потому что мы анализируем транскриптом, где интроны уже вырезаны.

Длина: 63025520

число чтений, картированных на хромосому: 3523
число чтений, не картированных на хромосому: 42
4. Подсчет чтений
Произведём подсчёт чтений при помощи htseq-count с опциями:
-f - format (.sam or .bam)
-s -stranded (yes,no,reverse)
-i - GFF attribute to be used as feature ID (default, suitable for Ensembl GTF files: gene_id)
-m - mode to handle reads overlapping more than one feature (choices: union, intersection-strict, intersection-nonempty; default: union)
Используем опции –f (формат – bam), -s no (направление цепи – обратное), параметры -i и -m возьмём по умолчанию.
Выбрана обратная цепь, потому что на прямую не лег ни один рид.

5. Анализ результатов
Из вывода программы следует, что всего 3565 ридов, из которых 1134 откартировались на несколько генов, 275 откартировались.

Описание полиморфизмов:
gene_id Количество ридов Тип гена Имя гена Белок (UniProt)
ENSG00000125835.13 2110 Protein coding SNRPB small nuclear ribonucleoprotein polypeptides B and B1
ENSG00000251806.1 4 SnoRNA SNORD119 -


SNRPB - малые ядерные рибонуклеопротеин-ассоциированные белки B и B', которые играют роль в сплайсинге.

SNORD119 - малые ядрышковые РНК (мякРНК) — класс малых РНК, участвующих в метилировании и псевдоуридилировании рибосомных РНК, а также тРНК и малых ядерных РНК.

Вернуться на главную страницу


© Наумова Юлия, 2018