Часть 1. Подготовка чтений

Для того, чтобы выполнить это задание, были выданы два файла:
° файл с одноконцевыми чтениями экзома 5 хромосомы человека chr5.fastq;
° файл с последовательностью этой хромосомы из генома со сборкой версии hg19 chr5.fasta
1. Анализ качества чтений с помощью программы FastQC для исходного,chr5.fastq, файла .
Использованная команда - "fastqc chr5.fastq".
Файл на выходе - chr5_fastqc.html, который содержал графические данные и архив chr5_fastqc.zip(изображения+текстовые файлы).
2. Очистка чтений с помощью программы Trimmomatic.
Требовалось отрезать с конца каждого чтения нуклеотиды с качеством ниже 20, но оставить только чтения длиной не меньше 50 нуклеотидов.
Разбор примененных функций:
° TRAILING - удаляет с конца чтения нуклеотиды с качеством ниже указанного.
Например,"TRAILING:20" = удалению нуклеотидов с качеством ниже 20.
° MINLEN - удаляет чтения с длиной меньше указанного числа.
Например, "MINLEN:50" = подразумевает, что останутся только чтения, длина которых не меньше 50.
Использованная команда - "java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr5.fastq chr5_out.fastq TRAILING:20 MINLEN:50".
Файл на выходе - chr5_out.fastq
3. Анализ качества чтений с помощью программы FastQC для полученного файла chr5_out.fastq.
Использованная команда - "fastqc chr5_out.fastq".
Файл на выходе - chr5_out_fastqc.html.
4. Сравнить выдачу chr5_out_fastqc.html с выдачей chr5_out.fastq.
До очистки:
° число чтений = 8208.
° длина чтений = 41-100.
Per base quality до чистки:

После очистки:
° число чтений = 8114.
° длина чтений = 50-100.
Per base quality после чистки:

Часть 2. Картирование чтений

5. Откартирование чтений с помощью программы BWA происходит в 2 этапа:
° Индексирование референсной последовательности:
Использованная команда - "bwa index chr5.fasta"
Время работы программы: 368.304 sec.
° Построение выравнивания прочтений и референса в формате .sam:
Использованная команда - "bwa mem chr5.fasta chr5_out.fastq > chr5.sam".
Файл на выходе - chr5.sam.
Время работы программы: 0.928 sec.
6. Анализ выравнивания происходит в 4 этапа:
° Перевод полученного файла в бинарный формат:
Использованная команда - "samtools view chr5.sam -bo chr5.bam".
Файл на выходе - chr5.bam.
° Отсортировка выравниваний чтений с референсом(полученный ранее bam-файл)
Использованная команда - "samtools sort chr5.bam -T pr13.txt -o chr5_sort.bam".
Файл на выходе - chr5_sort.bam.
° Индексирование отсортированного bam-файла.
Использованная команда - "samtools index chr5_sort.bam".
Файл на выходе - chr5_sort.bam.bai.
° Анализ количества чтений, откартированных на геном:
Использованная команда - "samtools idxstats chr5_sort.bam > pr13_out.txt"
Файл на выходе - pr13_out.txt - в нем указаны название последовательности, длина последовательности (180915260) и число картированных чтений (8113). Таким образом, только одно чтение не было картировано.

Часть 3. Картирование чтений

7. Поиск SNP и инделей проходит в 3 этапа:
° Создание файла с полиморфизами
Использованная команда -"samtools mpileup -uf chr5.fasta chr5_sort.bam -o chr5.bcf".
Файл на выходе - chr5.bcf.
° Создание файла со списком отличий между референсом и чтениями
Использованная команда - "bcftools call -cv chr5.bcf -o chr5.vcf".
Файл на выходе - chr5.vcf
° Нахождение и описание трех полиморфизмов из полученного файла chr5.vcf
Немного о самом файле:
→ в его составе 32 полиморфизма;
→ 2 вставки;
→ 2 делеции;
→ 28 SNP.

[ссылка на таблицу]

8. Аннотация SNP
° Для начала необходимо конвертировать и аннотировать полученный файл без инделей chr5_without_indel.vcf с помощью скриптов convert2annovar.pl и annotate_variation.pl.
Использованная команда - "perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 chr5_without_indel.vcf -outfile chr5.annovar"
Файл на выходе - chr5.annovar
Далее с файлом chr5.annovar можно произвести аннотации SNP с помощью скрипта annotate_variation.pl.
→ Refgene - gene-based annotation
Использованная команда - "perl /nfs/srv/databases/annovar/annotate_variation.pl -out chr5.refgene -build hg19 chr5.annovar /nfs/srv/databases/annovar/humandb/"
Файлы на выходе:
° chr5.refgene.log
° chr5.refgene.variant_function
° chr5.refgene.exonic_variant_function

[ссылка на таблицу]

16 полиморфизмов оказались гомозиготными, а 12 - гетерозиготными. Также в выходном файле указаны названия генов, в которые попали полиморфизмы: ° IL7R
° CAPSL
° HMGCR
→ dbSNP (Single Nucleotide Polymorphism Database)
Использованная команда - "perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr5.dbsnp -build hg19 -dbtype snp138 chr5.annovar /nfs/srv/databases/annovar/humandb/"
° chr5.dbsnp.hg19_snp138_dropped
° chr5.dbsnp.hg19_snp138_filtered
° chr5.dbsnp.log
5 хромосом 24 SNP имеют rs, а 4 - не имеют. Все полиморфизмы, которые расположены на экзонах, имеют аннотацию в базе данных dbSNP.
→ GWAS (Genome-Wide Association Studies)
Использованная команда - "perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -build hg19 -out chr5.gwas -dbtype gwasCatalog chr5.annovar /nfs/srv/databases/annovar/humandb/"
° chr5.gwas.hg19_gwasCatalog
° chr5.gwas.log

[ссылка на таблицу]

→ 1000 Genomes
Использованная команда - "perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out chr5.1000g -dbtype 1000g2014oct_all -buildver hg19 chr5.annovar /nfs/srv/databases/annovar/humandb/"
° chr5.1000g.hg19_ALL.sites.2014_10_dropped
° chr5.1000g.hg19_ALL.sites.2014_10_filtered
° chr5.1000g.log

[ссылка на таблицу]

→ ClinVar
Использованная команда - "perl /nfs/srv/databases/annovar/annotate_variation.pl chr5.annovar -filter -dbtype clinvar_20150629 -buildver hg19 -out chr5.clinvar /nfs/srv/databases/annovar/humandb/"
° chr5.clinvar.hg19_clinvar_20150629_dropped
° chr5.clinvar.hg19_clinvar_20150629_filtered
° chr5.clinvar.log

[ссылка на таблицу]

Ресеквенирование. Поиск полиморфизмов у человека. Задача: найти и описать полиморфизмы у пациента.

Часть 1. Подготовка чтений

Часть 2. Картирование чтений

Часть 3. Картирование чтений