1. Анализ качества чтений
Сначала был проведен анализ качества чтений. Команда:fastqc chr6.1.fastq- получение файлов с информацией о качестве чтений. Выдача FastQC per base quality: Качество чтений оказалось хорошим, так что чистка программой Trimmomatic не понадобилась.2. Картирование чтений
Был экспортирован пакет программ:export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5Референсная последовательность была проиндексирована в прошлом практикуме с помощью командыhisat2-build chr6.fasta chr6indexЗатем было построено выравнивание прочтений и референса в формате .sam. Команда:hisat2 -x chr6index -U chr61trim.fastq --no-softclip > 1align.samИз параметров был убран -no-spliced-alignment, т. к. в этот раз мы работаем с РНК, которая могла подвергнуться сплайсингу.3. Анализ выравнивания
Выравнивание было переведено в бинарный формат командойsamtools view 1align.sam -bo 1align.bamВыравнивание чтений с референсом было отсортировано. Команда:samtools sort 1align.bam -T align1.txt -o sort.bamОтсортированный .bam файл был проиндексирован командойsamtools index sort.bamОткартированные прочтения были записаны в файл с помощью команды:samtools idxstats sort.bam > 61.txtВ файле 61.txt прописаны число картированных(44621) и некартированных ридов(9199), длина хромосомы(171115067).4. Подсчет чтений
Файл .bam был переведен в .bed командой/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i sort.bam > 61.bedКомандой/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b 61.bed -u > 611.bedбыл получен файл с информацией о ненулевых перекрытиях ридов с генами генома. Количество перекрывающихся ридов было получено с помощью команд/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b 61.bed -c > 611.bed sort -k 6 -r 611.bed > 611sorted.bedНаправление цепи было получено с помощью команд/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b 61.bed -wb > 611.bed sort -k 6 -r 611.bed > 611sorted.bedНекоторые из полученных результатов:
Координаты | Ген | Функция | Количество ридов | Направление цепи |
74175932 - 74210424 | MTO1 | protein_coding | 2 | - |
74197315 - 74197600 | Metazoa_SRP | misc_RNA | 2 | - |
74173796 - 74173900 | RNU6-975P | snRNA | 1 | - |
74186781 - 74186865 | AL603910.1 | miRNA | 2 | - |
74228655 - 74228951 | EEF1A1 | protein_coding | 1975 | - |
Дополнительные задания по Bedtools
1. Получите из файла в выравниванием файл с чтениями в формате fastqbedtools bamtofastq -i align1.bam -fq align11.fastq
2. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов.
bedtools getfasta -fi chr13.fasta -bed one.bed > one.fasta
3. Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов. Какова длина хромосомы в нуклеотидах? Сколько в результате получилось интервалов?
bedtools makewindows -g chr6.txt -w 1000000 > chr6split.txt
Длина хромосомы 171115067. Получилось 172 фрагмента.