Для получения вариантов была выполненая следующая команда:
bcftools mpileup -f ./bwa/chr3.fna marked_chr3.bam | bcftools call -mv -o chr3.vcf
В ней:
Полученный vcf-файл состоит из шапки с информацией о файле и таблицы вариантов в последовательности.Строки шапки файла отличаются наличием символа "#"
Таблица состоит из нескольких столбцов, некоторые из них:
Vcf-файл был проанализирован с помощью следующей команды:
bcftools stats chr3.vcf > stats.txt
Файл можно посмотреть здесь. Из полученного файла мы находим общее количество вариантов - 418874, из которых инделей - 8602, а SNP - 410272.
Для фильтрации вариантов по глубине покрытия (> 50) и по качеству (> 30) была выполнена команда:
bcftools filter -i'%QUAL>30 && DP>50' chr3.vcf -o chr3_filter.vcf
Далее отфильтрованный файл бы проанализирован с помощью той же команды bcftools stats
bcftools stats chr3_filter.vcf > stats_filtered.txt
Полученный файл со статистикой можно найти здесь.
Количество инделей - 353, количество SNP - 25388. Видно, что в результате фильтрации количество вариантов значительно уменьшилось.
Для получения участков генома, покрытых чтениями хотя бы 1 раз, была использована команда:
bedtools genomecov -bg -ibam marked_chr3.bam > chr3_covered.bed
На выходе мы получили файл в формате BedGraph - в нём есть 4 колонки. Первая колонка - название хромосомы, вторая и третья - начало и конец полиморфизма, четвёртая показывает покрытие
участка.
Далее, для фильтрации полиморфизмов по покрытию (>50) была введена команда:
awk '{if($4 > 50) {print $1"\t"$2"\t"$3"\t"$4}}' chr3_covered.bed > chr3_filter.bed
С помощью команды wc -l chr3_filter.bed было посчитано количество строк в файл chr3_filter.bed - оно оказалось равным 1667803.
После этого, для нахождения полиморфизмов, попавших в хорошо покрытые участки, используем команду bedtools intersect для отфильтрованного vcf-файла chr3_filter.vcf.
bedtools intersect -a chr3_filter.vcf -b chr3_filter.bed > chr3_cov.txt
Полученный файл со статистикой можно найти здесь