Практикум 12
Функция | Комманда |
Выдает информацию о качестве прочтений (Quality Score) | fastqc chr5.1.fastq |
Цель | Комманда |
Экспорт Hisat2 | export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5 |
Индексирование референсной последовательности | hisat2-build chr5.fasta chr5 |
Выравнивание прочтений и референса в формате .sam | hisat2 --no-softclip -x chr5 -U chr5.1.fastq -S ali1.sam |
Перевод в бинарный формат | samtools view ali1.sam -b -o ali1.bam |
Сортировка по координате начала в референсе | samtools sort ali1.bam -T file.txt -o alisort1.bam |
Индексация отсортированного .bam файла | samtools index alisort1.bam |
Был убран параметр --no-spliced-alignment, так как мы анализируем РНК, состоящую из экзонов (т.е. некоторые врагменты уже вырезаны), а сравниваем с референсной ДНК, содержащей интроны.
Из вывода программы Hisat2:
24 156 прочтений, из которых: 504 прочтения не были выравнены вовсе, 17070 - 1 раз и 6582 - > 1 раза. Общий коэффициент выравнивания - 97.91%.
Цель | Комманда |
Перевод в формат, с которым работает bedtools | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i alisort1.bam > chr5.1.bed |
Пересечение с разметкой, параметр -a указывает референс, с которым будут сравниваться файлы, указанные под параметром -b . Параметр -с считает количество покрытий участка файла под -а ридами из файла -b | bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b chr5.1.bed -c > chr5.1intersect.bed |
Сортировка по умньшению значения в 6 столбце, обозначающим глубину покрытия | sort -k 6 -r chr5.1intersect.bed > chr5.1intersectsorted.bed |
Прочтение первых 200 строк отсортированного файла (для облегчения работы, т.к. файл достаточно большой) | head -n 200 chr5.1intersectsorted.bed |
Ген | Покрытие | Направление | Координаты | Количество экзонов | Длина | Данные о фуекциях из NCBI |
NPM1 | 453648 | + | 171387648..171410900 | 11 | 23252 | Участие в удвоении центриолей, сборке белков и пролиферации |
FAM172A | 1962 | - | 93615130..94111699 | 23 | 496569 | Участие в процессах клеточной пролиферации и апоптоза |
NPM1P27 | 975 | - | 93682519..93683816 | - | 1297 | Псевдоген |
Рассчитаем количество покрытий средствами Excel, скопируем выдачу head -n 200 chr5.1intersectsorted.bed для перечисленных в таблице генов, удалим повторяющиеся строки и просуммируем соответствующие значения в 5 колонке. Результат операции представлен в таблице. Некоторые риды легли вне границы генов и попали на кодирующие snoRNA в экзонах гена NPM1.