Учебный сайт Екатерины Швецовой

Картирование на референсный геном

Чтения, очищенные во время выполнения предыдущего практикума, картированы на геномы хлоропласта и митохондрии резуховидки.

Для этого сначала эти геномы были скачаны и объеденены в общий файл. Затем чтения были откартированы на геномы митохондрии и хлоропласта с помощью программы BWA.

Геномы были проиндексированы с помощью комманды: "bwa index chloropl_mitoch.fasta". Использовался алгоритм BWA-MEM, так как он предназначен для чтений длиной от 70 пар оснований и выше (а таких у нас большинство) и подходит для секвенирования с помощью Illumina. В результате картирование было произведено при помощи команды: "bwa mem hlor_mit.fasta Ath_tae_CTTGTA_L003_R2_007_out.fastq > bwa_aln.sam".

Затем для анализа полученных результатов использовалась программа samtools. Чтобы выяснить, сколько чтений откартировано на каждую органеллу, сначала файл был переведён из формата .sam в .bam (комманда view с опциями -b -S -h; -h включает заголовки в выходной файл), затем отсортировать информацию об откартированных чтениях (комманда sort), проиндексировать (комманда index) и получить нужную нам статистику (команда idxstats).

Таким образом, последовательно были произведены следующие комманды:

samtools view -b -S -h bwa_aln.sam > bwa_aln.bam
samtools sort bwa_aln.bam bwa_aln_sorted
samtools index bwa_aln_sorted.bam
samtools idxstats bwa_aln_sorted.bam

После выполнения подпрограммы samtools idxstats, на экран была выведена следующая статистика:

ENA|AP000423|AP000423.1	154478	671480	0
ENA|Y08501|Y08501.2	366924	73569	0
*	0	0	3127747

Здесь на каждой строчке через знак табуляции перечисленны: название последовательности, на которую производилось картирование (AP000423.1 - хлоропласт, Y08501.2 - митохондрия), длина последовательности и количество чтений, откартированных на неё.

То есть, можно видеть, что на менее длинный (154478 bp) геном хлоропласта откартировась значительно больше чтений (671480), чем на более длинный (366924 bp) геном митохондрии (на неё было откартированно только 73569 чтений). Из этого можно сделать вывод, что при проведении эксперимента секвенировали ДНК из клеток зелёных частей растений (в них больше хлоропластов, чем митохондрий).

Покрытие каждого нуклеотида было рассчитано с помощью команды: "samtools depth bwa_aln_sorted.bam > nucl_cover.txt". На входе был получен файл nucl_cover.txt, каждая строчка которого содержит название последовательности, на которую было произведено картирование, номер нуклеотида и его покрытие (количество картированных чтений, покрывающих этот нуклеотид). С помощью Excel было посчитано среднее покрытие для нуклеотидов хлоропласта (432) и митохондрии (20).

© Shvetsova Ekaterina, FBB MSU, 2013
Дата последнего изменения: 07.12.2016