Ресеквенирование. Поиск полиморфизмов у человека
1. Подготовка чтений
Для хромосомы №20 были скопированы следующие файлы:
chr20.fasta
chr20.fastq
И с помощью FastQC проанализировано качество чтений:
fastqc chr20.fastq
Отчёт программы:
chr20_fastqc_before.zip
Картинка из отчёта:
Далее с помощью программы trimmomatic произведена коррекция исходного качества:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr20.fastq chr20_trimmed.fastq
TRAILING:20 MINLEN:50
TrimmomaticSE: Started with arguments: -phred33 chr20.fastq chr20_trimmed.fastq
TRAILING:20 MINLEN:50
Automatically using 8 threads
Input Reads: 4661 Surviving: 4472 (95,95%) Dropped: 189 (4,05%)
TrimmomaticSE: Completed successfully
arma@kodomo:~/term3/block3/pr13$
По выводу видим, что удалилось 189 чтений длиной менее 50 нуклеотидов, включая те, что получились после удаления нуклеотидов с качеством ниже 20 с конца чтения. Осталось 4472 чтения.
Результат коррекции:chr20_trimmed.fastq
Анализ качества чтений после коррекции исходного файла:
Файл с отчётом:chr20_trimmed_fastqc.zip
Картинка из отчёта:
2. Картирование чтений
Индексация файла: bwa index chr20.fasta
Выравнивание индексированного файла и откорректированных прочтений: bwa mem chr20.fasta chr20_trimmed.fastq > chr20_bwa.sam
Анализ выравнивания:
samtools view -b chr20_bwa.sam -o sam_outf.bam # получаем нужный формат
samtools sort -o sam_sort.bam -T out.prefix sam_outf.bam #сортировка по координате в референсе
samtools index sam_sort.bam # индексация сортированного файла
samtools idxstats sam_sort.bam # статистика картирования чтений
Скриншот статистики:
Из 4472 чтений откартировалось 4468, 4 не нашли совпадений с картой генома.
Анализ однонуклеотидных полиморфизмов (SNP)
samtools mpileup -uf chr20.fasta sam_sort.bam > snp.bcf # поиск полиморфизмов
bcftools call -cv snp.bcf > dif.vcf # вывод списка отличий в файл
Чтобы визуально оценить список, смотрим описание формата vcf, прилагающееся к руководству bcftools (http://samtools.github.io/hts-specs/) и видим, что начиная со строки с одой решёткой в начале его можно сгрузить в Excel. Что и было сделано.
vcf-файл отличий
excel-файл отличий
Инделей не обнаружено (в графе "INFO" только "DP")
Аннотация по 5 базам данных:
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 dif.vcf > dif.avinput
perl /nfs/srv/databases/annovar/annotate_variation.pl -out RefGeneAnnotation -build hg19 dif.avinput /nfs/srv/databases/annovar/humandb/
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out SNP138Annotate -build hg19 -dbtype snp138 dif.avinput /nfs/srv/databases/annovar/humandb/
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_eur -buildver hg19 -out 1000gAnnotate dif.avinput /nfs/srv/databases/annovar/humandb/
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -build hg19 -out gwasAnnotate -dbtype gwasCatalog dif.avinput /nfs/srv/databases/annovar/humandb/
В итоге каждого скрипта получим 2-3 файла: .log его работы и найденные (filtered)/не найденные(dropped) в базе записи.
Составим по ним сводную таблицу аннотации: excel-файл
В клинической базе данных gwas аннотированы 3 snp, связанные со следующими паталогиями:
34025756: A на G, аномалия роста
48522330: G на A, развитие псориаза
56190634: С на T, атрофия гиппокампа
RefSeq делит замены по участкам расположения(экзонные, интронные) и в экзонных (у меня получилось их 8) выделяет, синонимична ли замена.
rs есть у 30 snp; частоту встречаемости можно оценить по результатам выдачи 1000g (см. таблицу)
|