Семестры • Третий семестр • Картирование на референсный геном
Для этого практикума я скачал файлы с геномами хлоропласта и митохондрии резуховидки Arabidopsis thaliana. Затем на эти геномы я откартировал очищенные риды из прошлого практикума программой BWA. Использованные команды:
bwa index chloroplast.fasta bwa mem chloroplast.fasta out2.fastq > chlor-mem.sam bwa index mitochondrion.fasta bwa mem mitochondrion.fasta out2.fastq > mito-mem.sam
Я использовал алгоритм MEM, так как он подходит и рекомендован для длинных (более 70bp, в моем случае 101bp) чтений Illumina.
С помощью программы samtools я выяснил, сколько чтений откартировалось на каждую органеллу. Пояснение к командам и сами команды:
#Преобразование формата .sam (-S) в формат .bam (-b) samtools view -bS mito-mem.sam > mito-mem.bam samtools view -bS chlor-mem.sam > chlor-mem.bam #Сортировка полученного .bam-файла samtools sort mito-mem.bam mito-mem.sorted samtools sort chlor-mem.bam chlor-mem.sorted #Индексация отсортированного .bam для быстрого доступа к данным samtools index mito-mem.sorted.bam samtools index chlor-mem.sorted.bam #Сбор статистики samtools idxstats mito-mem.sorted.bam > mito-mem.stats samtools idxstats chlor-mem.sorted.bam > chlor-mem.stats #Получение информации по покрытию samtools depth mito-mem.sorted.bam > mito-mem.depth.txt samtools depth chlor-mem.sorted.bam > chlor-mem.depth.txt
Выдача idxstats:
#Хлоропласт ENA|AP000423|AP000423.1 154478 676745 0 #Митохондрия ENA|Y08501|Y08501.2 366924 98313 0 * 0 0 3794263
На хлоропласт (длина последовательности 154478) откартировалось 676745 чтений, на митохондрию (длина 366924) - 98313, на порядок меньше. По-видимому, секвенировали части растения с большим количеством хлоропластов, например, листья или другие зеленые части.
В результате использования программы depth были получены файлы с покрытиями ридами для каждого нуклеотида последовательностей. Среднее покрытие в каждом случае было найдено с помощью программы Excel.
Среднее покрытие для хлоропласта составило 435,765, для митохондрии - 25,402.