Анализ транскриптомов

Подготовка чтений.

Команды

КомандаФункция
fastqc chr22.1.fastqВыдает информацию о качестве прочтений (о Quality Score сигналов)

Число чтений - 24294, длина чтений - 25-51.

Программа Trimmomatic не использовалась, так как чтение имеет хорошее качество

Картирование чтений и анализ выравнивания.

Команды

КомандаФункция
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5Добавляет пакет программ в PATH (они становятся доступными для вызова через командную строку)
hisat2-build chr22.fasta chr5Индексирует референсную последовательность
hisat2 --no-softclip -x chr22 -U chr22.1.fastq -S align.samСтроит выравнивание референсной последовательности и прочтений
samtools view align.sam -b -o align.bamПереводит выравнивание в бинарный формат
samtools sort align.bam -T file.txt -o alignsort.bamСортирует выравнивание чтений с референсом по координате в референсе начала чтения
samtools index alignsort.bamИндексирует отсортированный .bam файл
samtools stats alignsort.bam > stats.txtВыдаёт файл со статистикой

Из файла со статитикой видно, что 23927 прочтений картировалось, 367 - нет.

Из команды 'hisat2 ...' была убрана опция '--no-spliced-alignment', так как в случае транскриптов, прошедших процессинг, некоторые участки изначальной последовательности ДНК уже вырезаны (поэтому при картировании нужно разрешить программе выравнивать фрагменты транскриптов по отдельности

Bedtools.

Команды

КомандаФункция
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i alignsort.bam > chr22_1.bedСоздает файл в .bed формате
bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b alignsort.bed -u > gene1.bedИщет перекрывание множества генов генома с множеством ридов выравнивания. -u отбираются лишь гены с ненулевым покрытием.

Большая часть чтений(193) легла на ген белка PRAME - антиген преимущественно экспрессирующийся в меланоме, его координаты: 22893274 - 22893276. Небольшая часть(2) легла на неохарактерихованный ген LL22NC03-63E9.3, координаты: 22901750 - 22909007.

Дополнительные задания.

1. Получить из файла c выравниванием файл с чтениями в формате fastq

bedtools bamtofastq -i alignsort.bam -fq alignsort.fq

2. Объединить чтения в кластеры

bedtools cluster -i alignsort.bed -d 5 > cluster.txt

3. Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов

bedtools makewindows -g chr22.txt -w 1000000 > wind.txt

Длина хромосомы 51304566. Получилось 52 фрагмента


©Шкарина Анастасия Николаевна 2016