Анализ транскриптомов

Практикум 12

Задание 1. Анализ качества чтений
Функция Комманда
Выдает информацию о качестве прочтений (Quality Score) fastqc chr5.1.fastq

Удобное представление результата: fastqc_report.html

Задание 2. Картирование чтений
Цель Комманда
Экспорт Hisat2 export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5
Индексирование референсной последовательности hisat2-build chr5.fasta chr5
Выравнивание прочтений и референса в формате .sam hisat2 --no-softclip -x chr5 -U chr5.1.fastq -S ali1.sam
Перевод в бинарный формат samtools view ali1.sam -b -o ali1.bam
Сортировка по координате начала в референсе samtools sort ali1.bam -T file.txt -o alisort1.bam
Индексация отсортированного .bam файла samtools index alisort1.bam

     Был убран параметр --no-spliced-alignment, так как мы анализируем РНК, состоящую из экзонов (т.е. некоторые врагменты уже вырезаны), а сравниваем с референсной ДНК, содержащей интроны.



Задание 3. Анализ выравнивания

    Из вывода программы Hisat2:
24 156 прочтений, из которых: 504 прочтения не были выравнены вовсе, 17070 - 1 раз и 6582 - > 1 раза. Общий коэффициент выравнивания - 97.91%.



Задание 4. Подсчет чтений
Цель Комманда
Перевод в формат, с которым работает bedtools /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i alisort1.bam > chr5.1.bed
Пересечение с разметкой, параметр -a указывает референс, с которым будут сравниваться файлы, указанные под параметром -b . Параметр -с считает количество покрытий участка файла под -а ридами из файла -b bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b chr5.1.bed -c > chr5.1intersect.bed
Сортировка по умньшению значения в 6 столбце, обозначающим глубину покрытия sort -k 6 -r chr5.1intersect.bed > chr5.1intersectsorted.bed
Прочтение первых 200 строк отсортированного файла (для облегчения работы, т.к. файл достаточно большой) head -n 200 chr5.1intersectsorted.bed


Задание 5. Анализ результатов
Найденные гены:
Ген Покрытие Направление Координаты Количество экзонов Длина Данные о фуекциях из NCBI
NPM1 453648 + 171387648..171410900 11 23252 Участие в удвоении центриолей, сборке белков и пролиферации
FAM172A 1962 - 93615130..94111699 23 496569 Участие в процессах клеточной пролиферации и апоптоза
NPM1P27 975 - 93682519..93683816 - 1297 Псевдоген

     Рассчитаем количество покрытий средствами Excel, скопируем выдачу head -n 200 chr5.1intersectsorted.bed для перечисленных в таблице генов, удалим повторяющиеся строки и просуммируем соответствующие значения в 5 колонке. Результат операции представлен в таблице. Некоторые риды легли вне границы генов и попали на кодирующие snoRNA в экзонах гена NPM1.


Назад
© Петрова Юлия 2016