Команда | Значение |
fastqc chr16.1.fastq | анализ качества прочтений |
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5 | экспорт hisat2 |
hisat2 -x ../pr11/chr16_indexed -U chr16.1.fastq --no-softclip -S chr16.1.sam | построение выравнивание между референсом (индексированные последовательности из предыдущего прокатикума) и прочтениями без обрезки концов |
samtools view chr16.1.sam -b -o chr16.1.bam | конвертирование выравнивания в бинарный формат |
samtools sort chr16.1.bam -T chr16.1_temp.txt -o chr16.1_sorted.bam | сортировка выравнивания |
samtools index chr16.1_sorted.bam | индексирование |
bedtools bamtobed -i chr16.1_sorted.bam > chr16.1.bed | конвертирование bam-файлов в bed-файлы |
bedtools intersect -a /nfs/srv/samba/public/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b chr16.1.bed -c | grep 'chr16' > chr16.1_intersect.bed | сравнение прочтений с референсами человеческого гено (сборка h19) |
Заданная хромосома - chr16. Выбранная реплика - первая.
Анализ качества прочтений программой FastQC.
Линия среднего качества прочтений остаётся в зелёной зоне, как и интерквартильные размахи. Около 44% прочтений имеют среднее качество = 39, что означает, что вероятность ошибки в этих ридах в среднем приблизительна равна 0.0001.
Был убран параметр, запрещающий разрывы, так как анализируется трансриптом.
Выдача hisat2.
9286 reads; of these: 9286 (100.00%) were unpaired; of these: 159 (1.71%) aligned 0 times 9063 (97.60%) aligned exactly 1 time 64 (0.69%) aligned >1 times 98.29% overall alignment rate
Команды приведены в таблице.
С помощью программы intersect пакета Bedtools файл с чтениями был сравнён с файлом, содержащим разметку человеческого генома, чтобы узнать, сколько чтений пришлось на определённый ген.
С помощью команды grep были выбраны только строки с информацией о нашей хромосоме, файл с выдачей программы .
В таблице ниже находится информация о нескольких генах реплики.
Имя | Стартовая координата | Конечная координата | Продукт | О продукте | Покрытие |
WASH4P | 64043 | 69452 | protein_coding | WAS protein family homolog 4 pseudogene | 152 |
POLR3K | 96407 | 103628 | protein_coding | RNA polymerase III subunit K | 15 |
HBM | 203891 | 216767 | protein_coding | hemoglobin subunit mu | 20 |
PHKB | 47461131 | 47701523 | protein_coding | phosphorylase kinase regulatory subunit beta | 413 |
Получить из файла c выравниванием файл с чтениями в формате fastq.
bedtools bamtofastq -i ../pr12/chr16.1_sorted.bam -fq chr16.1.fq
Входной файл: выравнивание.
Выходной файл: файл с чтениями.
Разбить хромосому на фрагменты по 1 млн нуклеотидов. В результате 91 фрагмент, длина хромосомы - 90354753 п.н.
bedtools makewindows -g chr16.genome -w 1000000 > chr16_fragments.bed
Входной файл: хромосома .
Выходной файл: фрагменты .
Наберите из Вашей хромосомы 1000 случайных фрагментов по 200 нуклеотидов.
bedtools random -g chr16.genome -n 1000 -l 200 > chr16_random.bed
Выходной файл: 1000 случайных фрагментов по 200 нуклеотидов.