<< Назад к странице 3 семестра
Практикум 12
Часть I: подготовка чтений
Рис. 1.Анализ качества чтений
Как можно видеть на изображении, полученном с помощью программы FastQC для Windows, данные чтения имеют хорошее качество и приемлимую длину,
поэтому не нуждаются в чистке.
1) Индексирование референсной последовательности:
/home/students/y06/anastaisha_w/hisat2-2.0.5/hisat2-build chr22.fasta chrbuild
2) Выравнивание прочтений и референса:
/home/students/y06/anastaisha_w/hisat2-2.0.5/hisat2 -x chrbuild -U chr22.1.fastq --no-softclip > align.sam
* В отличие от практикума 11, в этом коде нет параметра "--no-spliced-alignment", т.к. работа ведется с последовательностями РНК, прошедших
сплайсинг и, возможно, имеющих разрывы.
3) Перевод выравнивания в бинарный код (.bam):
samtools view align.sam -bo align.bam
4) Сортировка выравнивания:
samtools sort align.bam -T temp.txt -o sort_align.bam
5) Индексирование отсортированного файла
samtools index sort_align.bam
6) Получение файла со статистикой:
samtools stats sort_align.bam > stats.txt
Согласно данным полученного файла, всего из 24294 прочтений картировались 23927; не картированными остались 367.
Часть II: подcчет чтений
1) Перевести файл с выравниванием из .bam формата в .bed формат:
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i sort_align.bam > sort_align.bed
2)Подсчет чтений:
bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b sort_align.bed -u > gene1.bed
Данная команда позволила мне узнать, какие гены покрывают данные чтения, через пересечения с общим файлом с разметкой генов. Опция
-u позволила мне получить только те чтения, которые хотя бы раз пересекались с генами. При запуске без этого параметра полученный файл был гораздо больше
и бессмысленней.
По результатам работы данной программы, большая часть чтений легла на ген белка PRAME (193). Небольшая часть легла на ген LL22NC03-63E9.3 (2), также
кодирующий белок.
|