Анализ транскриптомов


Задание 1. Анализ качества чтений. Очистка чтений

Я сделал контроль качества чтений с помощью программы FastQC. Результат представлен тут и на рисунках 1 и 2.


Рисунок 1.

На рисунке ниже показаано распределение качества прочтений. Полученное прочтение лежат в зеленой зоне на графиках качества прочтений, длина прочтений сборки 33-51 нуклеотид, поэтому я решил, что очистка чтений программой trimmomatic была не нужна.
По оси Ох количество последовательностей, по Оу качество прочтений.

Рисунок 2.

.

Задание 2-3. Картирование чтений и их анализ

Все команды, которые я использовал для выполнения этого задания приведены ниже в общей таблице.
Команда hisat2 выравнивает прочтения и референс. Параметр -x указывает на путь к проиндексированному референсу, флаг -U - к файлу с ридами. Параметр --no-softclip запрещает подрезать нуклеотиды с концов ридов для выравнивания, но --no-spliced-alignment не использовался, так как мы анализируем РНК, состоящую из экзонов, а сравниваем с референсной ДНК, содержащую интроны. В итоге был получен файл. Из этого файла можно узнать, что хромосому были откартированы 21076 чтений, а 156 чтения не были откартированны.

Задание 4.

Практически все прочтения (280), полученные мною при помощи программы "bedtools", оказались в гене TFRC (277 прочтений) и лишь небольшая часть в гене RNU7-18P(3 прочтения), кодирующий snRNA. Этот ген кодирует мембранный белок, необходимый для доставки железа от трансферрина в клетку[1].
и лишь три прочтения оказались в гене RNU7-18P, который кодирует мяРНК.
Сам файл с рузельтами тут.
Использованные команды
1 Анализ качества чтений Что сделанно
fastqc chr3.1.fastq проведен контроль качества с помощью программы FastQC
2 Картирование чтений
hisat2-build chr3.fasta chr3_old.fasta проиндексирована референсная последовательность
hisat2 -x chr3_old.fasta -U chr3.1.fastq -S qw.sam построиенно выравнивание прочтений и референса в формате "*.sam"
 
3 Анализ выравнивания
samtools view qw.sam -b -o qw.bam переведено выравнивание чтений с референсом в бинарный формат "*.bam*
samtools sort qw.bam -T 1.txt -o sort1.bam отсортировано выравнивание чтений с референсом по координате в референсе начала чтения
samtools index sort1.bam проиндексирован отсортированный "*.bam" файл
samtools idxstats sort1.bam > task.txt записано числа откартировавшихся чтений
4 Подсчет чтений
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i qw.bam > qw.bed cоздан файла в формате "*.bed" из файла формата "*.bam"
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a  найдено пересечение выравниваний с разметкой по генам
/P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b qw.bed -c > er.bed
sort -k 6 -r er.bed > sort_er.bed создан отсортированный файл

Источники:

[1] Wikipedia, TFRC, 2015


© Угольков Ярослав, 2017