Учебный сайт Алены Корягиной

Картирование на референсный геном

В ходе данной работы были использованы очищенные ранее чтения генома резуховидки. Они были картированы на геномы хлоропласта и митохондрии резуховидки с помощью программы BWA.

Сначала геномы были проиндексированы, для того использовалась команда

bwa index chl_and_mit.fasta

В результате был получен файл формата .sam, который содержит выравнивания. Для того чтобы проанализировать его, использовалась программа samtools. Полученный файл был переведен в формат .bam (команда view с опциями -b -S -h; -h включает заголовки в выходной файл), отсортирован (команда sort), проиндексирован (команда index), а также была получена статистика о работе программ (команда idxstats). Команды:

samtools view -b -S -h bwa_aln.sam > bwa_aln.bam
samtools sort bwa_aln.bam sorted_bwa_aln.bam
samtools index sorted_bwa_aln.bam
samtools idxstats sorted_bwa_aln.bam

В итоге на экран было выведено следующее

ENA|AP000423|AP000423.1	154478	671480	0
ENA|Y08501|Y08501.2	366924	73569	0
*	0	0	3127747
		

Анализируя полученную информацию о статистике работы программы, были сделаны следующие выводы:

  • на геном хлоропласта длинной 154 478 пар оснований было откартировано 671 480 чтений;
  • на геном митохондрии длинной 366 924 пар оснований было откартировано 73 569 чтений.

Обратим внимание, что геном митохондрии больше генома хлоропласта, а количество откартированных на него чтений меньше. Это может означать, что для секвенирования были взяты ткани зеленых частей растения, в которых на порядок больше содержание хлоропластов, чем митохондрий.

Далее с помощью команды

samtools depth sorted_bwa_aln.bam > nucl_cover.txt

был получен файл, содержащих данные по покрытию каждого нуклеотида. С помощью программы Excel было рассчитано среднее покрытие нуклеотидов. Оно составила для хлоропласта 432, а для митохондрии 20.

© Alyona Koryagina aakor@fbb.msu.ru

Дата последнего изменения: 29.12.2014