Ресеквенирование

Задание 1.
Команда Функция
fastqc chr13.fastq вызывает программу FastQC, выдаёт .zip архив с отчётом в HTML-формате и картинками.



Рис1. До чистки Trimmomatic (8367 ридов).


Задание 2.
Команда Функция
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr8.fastq trim1.fastq LEADING:20 отрезает с начала каждого чтения нуклеотиды с качеством ниже 20
java -jar /usr/share/java/trimmomatic.jar SE -phred33 trim1.fastq trim2.fastq TRAILING:20 отрезает с конца каждого чтения нуклеотиды с качеством ниже 20
java -jar /usr/share/java/trimmomatic.jar SE -phred33 trim2.fastq trim3.fastq MINLEN:50 убирает чтения с длиной меньше 50 нуклеотидов


Количество ридов уменьшилось, т.к. удалились те, длина которых меньше 50 и те, качество которых ниже 20 (это видно из картинок, после очистки "усы" гистограммы не заходят в область ниже 20).

Рис2. После чистки Trimmomatic (8227 ридов).


Задание 3.
Команда Функция
bwa index chr8.fasta индексирует последовательность 8ой хромосомы
bwa mem chr8.fasta trim3.fastq > ali.sam выравнивает референс с чтениями


Задание 4.
Команда Функция
samtools view -bh ali.sam -o ali.bam перевод выравнивания в бинарный формат
samtools sort ali.bam out_sort сортирует выравнивание чтений с референсом по координате начала чтения в референсе
samtools index out_sort.bam индексирует отсортированный файл
samtools idxstats out_sort.bam определяет количество картированных на хромосому чтений


8224 рида картированы на хромосому.

Рис3. Количество картированных (8224) и некартированных (0) на хромосому чтений.


Задание 5.
Команда Функция
samtools mpileup -uf chr8.fasta out_sort.bam > snp.bcf создает файл с полиморфизмами в формате .bcf
bcftools call -cv snp.bcf > snp.vcf выдает файл со cписком полиморфизмов в читаемом текстовом формате


Всего было найдено 94 однонуклеотидных полиморфизмов и 8 инделей. Среднее качество полиморфизма равно примерно 67,26, при этом у 15 полиморфизмов качество выше 200, а у 37 - ниже 10. Среднее покрытие равно 12,76, у 29 полиморфизмов покрытие больше 10.
Вот описание трех из найденных полиморфизмов.

Рис4. Два полиморфизма и индель.


Задание 6.
Команда Функция
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp2.vcf > conv_snp.avinput конвертирует .vcf файл в формат, удобоваримый для annovar
perl /nfs/srv/databases/annovar/annotate_variation.pl -geneanno -dbtype refGene -buildver hg19 conv_snp.avinput -outfile refgeneann /nfs/srv/databases/annovar/humandb/ аннотация файла со списком замен по базе RefGene
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype snp138 -buildver hg19 conv_snp.avinput -outfile snp138ann /nfs/srv/databases/annovar/humandb/ аннотация файла со списком замен по базе SNP138
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 conv_snp.avinput -outfile 1000genomesann /nfs/srv/databases/annovar/humandb/ аннотация файла со списком замен по базе 1000 genomes
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -buildver hg19 conv_snp.avinput -outfile gwasann /nfs/srv/databases/annovar/humandb/ аннотация файла со списком замен по базе GWAS
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 conv_snp.avinput -outfile clinvarann /nfs/srv/databases/annovar/humandb/ аннотация файла со списком замен по базе Clinvar


Из файла, полученного аннотацией при помощи SNP138, можно понять, что снипов с rs 18 штук.
Аннотация программой annovar по базе RefGene делит полиморфизмы на следующие группы:

Рис5. Категории полиморфизмов в аннотации RefGene.


На рисунке представлены две самые частые замены. Замены с частотой 1 встречаются и в других позициях, однако там низкий показатель покрытия, поэтому в их достоверности я сомневаюсь. Полиморфизмов с частотой больше 0,5 43 штуки.

Рис6. Две самые частые замены.


В нашем случае в полученном файле есть полиморфизмы следующих групп:
  • intronic - попадающие в интрон, 58шт.
  • exonic - попадающие в экзон, 5шт.
  • UTR3 - попадающие в 3'-нетранслируемый регион, 13шт.
  • intergenic - попадающие в последовательность между генами, 18шт.
  • Генов, в которые попали полиморфизмы, немного. Среди них CLU (ген кластерина), TRPS1 (Tricho-rhino-phalangeal syndrome 1). Полиморфизмы попадают в том числе и в ген HNF4G (Hepatocyte Nuclear Factor 4, Gamma), мутации в котором могут быть связаны с диабетом по типу MODY1, также изучается его участие в раке мочевого пузыря. GWAS связал два снипа с болезнью Альцгеймера, еще один влияет на уровень мочевой кислоты, а четвертый - на уровень холестерола в ЛПВП.

    Назад к странице третьего семестра.


    © Aleksei Efremov, 2015