Ресеквенирование.Поиск полиморфизмов у человека. (Часть 2)


Получение вариантов.

Для получения вариантов была выполненая следующая команда:

bcftools mpileup -f ./bwa/chr3.fna marked_chr3.bam | bcftools call -mv -o chr3.vcf

В ней:

  • bcftools mpileup - утилита, создающая bcf/vcf файлы.
  • -f - опция, подающая команде проиндексированный референсный файл (в нашем случае - chr3.fna)
  • marked_chr3.bam - файл с дублированными маркированными чтениями
  • -m - опция вызова параметров для многоаллельного или редковариантного коллинга
  • -v - для записи в файл только вариантов;
  • bcftools call - утилита для поиска SNP-полиморфизмов
  • -o - опция для указания имени файла на выходе
  • Полученный vcf-файл состоит из шапки с информацией о файле и таблицы вариантов в последовательности.Строки шапки файла отличаются наличием символа "#"

    Таблица состоит из нескольких столбцов, некоторые из них:

  • CHROM - название последовательности, в которой обнаружен полиморфизм (или индель)
  • POS - позиция полиморфизма или инделя
  • ID - идентификатор полиморфизма или инделя
  • REF - нуклеотиды в референсе на позициях, на которых обнаружен полиморфизм
  • ALT - найденные варианты нуклеотидов в этой позиции
  • QUAL - качество вариантов в позиции
  • FILTER - какие фильтры были пройдены этим вариантом
  • INFO - доп.информация про данный вариант последовательности
  • Vcf-файл был проанализирован с помощью следующей команды:

    bcftools stats chr3.vcf > stats.txt

    Файл можно посмотреть здесь. Из полученного файла мы находим общее количество вариантов - 418874, из которых инделей - 8602, а SNP - 410272.

    Фильтрация вариантов.

    Для фильтрации вариантов по глубине покрытия (> 50) и по качеству (> 30) была выполнена команда:

    bcftools filter -i'%QUAL>30 && DP>50' chr3.vcf -o chr3_filter.vcf

    Далее отфильтрованный файл бы проанализирован с помощью той же команды bcftools stats

    bcftools stats chr3_filter.vcf > stats_filtered.txt

    Полученный файл со статистикой можно найти здесь.
    Количество инделей - 353, количество SNP - 25388. Видно, что в результате фильтрации количество вариантов значительно уменьшилось.

    Изучение покрытия.

    Для получения участков генома, покрытых чтениями хотя бы 1 раз, была использована команда:

    bedtools genomecov -bg -ibam marked_chr3.bam > chr3_covered.bed

    На выходе мы получили файл в формате BedGraph - в нём есть 4 колонки. Первая колонка - название хромосомы, вторая и третья - начало и конец полиморфизма, четвёртая показывает покрытие участка.
    Далее, для фильтрации полиморфизмов по покрытию (>50) была введена команда:

    awk '{if($4 > 50) {print $1"\t"$2"\t"$3"\t"$4}}' chr3_covered.bed > chr3_filter.bed

    С помощью команды wc -l chr3_filter.bed было посчитано количество строк в файл chr3_filter.bed - оно оказалось равным 1667803.

    После этого, для нахождения полиморфизмов, попавших в хорошо покрытые участки, используем команду bedtools intersect для отфильтрованного vcf-файла chr3_filter.vcf.

    bedtools intersect -a chr3_filter.vcf -b chr3_filter.bed > chr3_cov.txt

    Полученный файл со статистикой можно найти здесь