Ресеквенирование. Поиск полиморфизмов у человека 3.

1. Получение вариантов.
a. bcftools mpileup -f ../index_bwa/chr13.fna mark.bam | bcftools call -mv -o chr13.vcf. Параметры: bcftools mpileup – создание vcf или bcf файла с вероятностями генотипов на основе выравнивания, -f – проиндексированный референсный файл в формате fasta, результат передается bcftools call, вызывающей варианты, -mv – модель для мультиаллельного вызова и вызова редких вариантов, на выход поступают только варианты.
b. Полученный vcf файл содержит заголовок, строки которого начинаются с #, и строки, в каждой из которых записана информация об определенной позиции в геноме. В файле 8 обязательных полей: #CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO
c. vcf файл был проанализирован с помощью программы bcftools stats: bcftools stats chr13.vcf > stats.txt
d. Вариантов получилось 312283. Однонуклеотидных замен 306885, вставок и делеций 5398.

2. Фильтрация вариантов.
a. К полученному vcf файлу применен bcftools filter -i'%QUAL>30 && DP>50'. Команда: bcftools filter -i'%QUAL>30 && DP>50' chr13.vcf -o filter_chr13.vcf
b. К vcf файлу из п.2а применена команда bcftools stats filter_chr13.vcf > filter_stats.txt. Количества вариантов по сравнению с п.1d изменились: 16341 вариантов, 16094 SNP, 247 инделей.

3. Изучение покрытия.
a. Получим участки генома, покрытые нашими чтениями хотя бы 1 раз. Использована команда bedtools genomecov, в качестве входного bam файла взят файл с маркированными дублированными чтениями, использована опция -bg, получившийся результат сохранен в файле .bed. Команда: bedtools genomecov -bg -ibam mark.bam > cov.bed
b. Получившийся в п.3а файл представляет собой таблицу с колонками: референс, начало варианта, конец варианта, покрытие.
c. Чтобы отобрать только такие участки генома, которые покрыты более 50 раз, и сохранить в файл .bed, использована команда: awk '{ if ($4 > 50) {print $1"\t"$2"\t"$3"\t"$4}}' cov.bed > cov50.bed
d. Число строк в файле из п. 3с посчитано с помощью команды wc -l cov50.bed. Всего строк 722690.