Картирование на референсный геном

СеместрыТретий семестр • Картирование на референсный геном

Для этого практикума я скачал файлы с геномами хлоропласта и митохондрии резуховидки Arabidopsis thaliana. Затем на эти геномы я откартировал очищенные риды из прошлого практикума программой BWA. Использованные команды:

bwa index chloroplast.fasta                          
bwa mem chloroplast.fasta out2.fastq > chlor-mem.sam
bwa index mitochondrion.fasta                        
bwa mem mitochondrion.fasta out2.fastq > mito-mem.sam

Я использовал алгоритм MEM, так как он подходит и рекомендован для длинных (более 70bp, в моем случае 101bp) чтений Illumina.

С помощью программы samtools я выяснил, сколько чтений откартировалось на каждую органеллу. Пояснение к командам и сами команды:

#Преобразование формата .sam (-S) в формат .bam (-b)
samtools view -bS mito-mem.sam > mito-mem.bam
samtools view -bS chlor-mem.sam > chlor-mem.bam

#Сортировка полученного .bam-файла
samtools sort mito-mem.bam mito-mem.sorted
samtools sort chlor-mem.bam chlor-mem.sorted

#Индексация отсортированного .bam для быстрого доступа к данным
samtools index mito-mem.sorted.bam
samtools index chlor-mem.sorted.bam

#Сбор статистики
samtools idxstats mito-mem.sorted.bam > mito-mem.stats
samtools idxstats chlor-mem.sorted.bam > chlor-mem.stats

#Получение информации по покрытию
samtools depth mito-mem.sorted.bam > mito-mem.depth.txt
samtools depth chlor-mem.sorted.bam > chlor-mem.depth.txt

Результаты

Выдача idxstats:

#Хлоропласт
ENA|AP000423|AP000423.1	154478	676745	0
#Митохондрия
ENA|Y08501|Y08501.2	366924	98313	0
*	0	0	3794263

На хлоропласт (длина последовательности 154478) откартировалось 676745 чтений, на митохондрию (длина 366924) - 98313, на порядок меньше. По-видимому, секвенировали части растения с большим количеством хлоропластов, например, листья или другие зеленые части.

В результате использования программы depth были получены файлы с покрытиями ридами для каждого нуклеотида последовательностей. Среднее покрытие в каждом случае было найдено с помощью программы Excel.

Среднее покрытие для хлоропласта составило 435,765, для митохондрии - 25,402.