Картирование на референсный геном

Для выполнения задания были скачаны последовательности геномов хлоропласта и митохондрии резуховидки Arabidopsis thaliana. Очищенные чтения из предыдущего задания были картированы на геномы с помощью программы BWA. Для запуска программы сначала требуется провести индексацию последовательности. Для этого использовалась команда:

bwa index 1.fasta

Далее была исполдьзована команда, запускающая алгоритм BWA-MEM:

bwa mem 1.fasta out8.fastq > new.sam

Был получен файл с выравниваниями в формате .sam, с которым может далее работать программа samtools:

samtools view -b -S -h new.sam > new.bam
samtools sort new.bam sort.bam
samtools index sort.bam.bam
samtools idxstats sort.bam.bam

В результате были получены следующие данные:

ENA|AP000423|AP000423.1 154478 403067 0 ENA|Y08501|Y08501.2 366924 43432 0 * 0 0 1887859

Это знаечит, что на хлоропласт (ENA|AP000423|AP000423.1) откартировалось 403067 прочтения, а на митохондрию (ENA|Y08501|Y08501.2) откартировалось всего 43432, что может может быть следствием того, что для сиквенирования использовались зеленые части растения, в больше хлоропластов, чем митохондрий.

Затем использовалась команда

samtools depth sort.bam.bam > cover.txt

Был получен файл, содержащий данные по покрытию каждого нуклеотида. Среднее покрытие вычислялось в Excel и составило для хлоропласта 258,1095755, для митохондрии 11,60791608.

© Маслова Валентина, 2014
Последнее изменение: 24.09.2014