Анализ транскриптомов

Таблица выполненных команд

Команда Значение
fastqc chr16.1.fastq анализ качества прочтений
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5 экспорт hisat2
hisat2 -x ../pr11/chr16_indexed -U chr16.1.fastq --no-softclip -S chr16.1.sam построение выравнивание между референсом (индексированные последовательности из предыдущего прокатикума) и прочтениями без обрезки концов
samtools view chr16.1.sam -b -o chr16.1.bam конвертирование выравнивания в бинарный формат
samtools sort chr16.1.bam -T chr16.1_temp.txt -o chr16.1_sorted.bam сортировка выравнивания
samtools index chr16.1_sorted.bam индексирование
bedtools bamtobed -i chr16.1_sorted.bam > chr16.1.bed конвертирование bam-файлов в bed-файлы
bedtools intersect -a /nfs/srv/samba/public/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b chr16.1.bed -c | grep 'chr16' > chr16.1_intersect.bed сравнение прочтений с референсами человеческого гено (сборка h19)

Задание №1. Анализ качества

Заданная хромосома - chr16. Выбранная реплика - первая.

Анализ качества прочтений программой FastQC.

Линия среднего качества прочтений остаётся в зелёной зоне, как и интерквартильные размахи. Около 44% прочтений имеют среднее качество = 39, что означает, что вероятность ошибки в этих ридах в среднем приблизительна равна 0.0001.

Задание №2. Картирование чтений

Был убран параметр, запрещающий разрывы, так как анализируется трансриптом.

Выдача hisat2.

9286 reads; of these:
  9286 (100.00%) were unpaired; of these:
    159 (1.71%) aligned 0 times
    9063 (97.60%) aligned exactly 1 time
    64 (0.69%) aligned >1 times
98.29% overall alignment rate

Задание №3. Анализ выравнивания

Команды приведены в таблице.


Bedtools

Задание №4. Подсчёт чтений

С помощью программы intersect пакета Bedtools файл с чтениями был сравнён с файлом, содержащим разметку человеческого генома, чтобы узнать, сколько чтений пришлось на определённый ген.

С помощью команды grep были выбраны только строки с информацией о нашей хромосоме, файл с выдачей программы .

В таблице ниже находится информация о нескольких генах реплики.

Имя Стартовая координата Конечная координата Продукт О продукте Покрытие
WASH4P 64043 69452 protein_coding WAS protein family homolog 4 pseudogene 152
POLR3K 96407 103628 protein_coding RNA polymerase III subunit K 15
HBM 203891 216767 protein_coding hemoglobin subunit mu 20
PHKB 47461131 47701523 protein_coding phosphorylase kinase regulatory subunit beta 413

Задание №1.

Получить из файла c выравниванием файл с чтениями в формате fastq.

bedtools bamtofastq -i ../pr12/chr16.1_sorted.bam -fq chr16.1.fq

Входной файл: выравнивание.

Выходной файл: файл с чтениями.

Задание №3.

Разбить хромосому на фрагменты по 1 млн нуклеотидов. В результате 91 фрагмент, длина хромосомы - 90354753 п.н.

bedtools makewindows -g chr16.genome -w 1000000 > chr16_fragments.bed

Входной файл: хромосома .

Выходной файл: фрагменты .

Задание №5.

Наберите из Вашей хромосомы 1000 случайных фрагментов по 200 нуклеотидов.

bedtools random -g chr16.genome -n 1000 -l 200 > chr16_random.bed

Входной файл: хромосома.

Выходной файл: 1000 случайных фрагментов по 200 нуклеотидов.