Картирование на референсный геном

Для работы по этому практикуму использовался очищенный файл с чтениями полученный в прошлом пратикуме, а также геномы хлоропластов и митохондрий Arabidopsis thaliana.

Очищенный файл с чтениями из предыдущего практикума был картирвоан на геномы хлоропласта и митохондрии с помощью программы BWA. В начале нужно было провести индексирование , затем было проведено картирование. Для этого использовались следующие команды:

bwa index organels_genome.fasta #индексирование
bwa mem organels_genome.fasta Ath_tae_CTTGTA_L003_R2_005_cleaned.fastq > map.sam #картирование

Затем полученное выравнивание анализироваось с помощью программы samtools с помощью следующих команд:

samtools view -b -S -h map.sam > map.bam
samtools sort map.bam sort.bam
samtools index sort.bam.bam
samtools idxstats sort.bam.bam

В результате была получена таблица 1

Тaблица 1. Результат работы программы samtools
ENA|AP000423|AP000423.1 154478 667242 0
ENA|Y08501|Y08501.2 366924 72397 0
* 0 0 3111307

Из этой таблицы следует, что на геном хлоропласта (ENA|AP000423|AP000423.1), длиной в 154478 нуклеотидов, было откартировано 667242 рида, а на геном митохондрии (ENA|Y08501|Y08501.2), длиной в 366924 нуклеотида было откартировано 72397 ридов. Следовательно митохондриальной ДНК в отсеквенирвоанном образце было значительно меньше, скорее всего это были зелёные части растения, содержащие много хлоропластов.

Затем, для вычисления покрытия каждого нуклеотида использовалась следующая команда:

samtools depth sort.bam.bam > cover.txt

В результате был получен файл, содержащий информацию о покрытии каждого нуклеотида в геноме хлоропласта и митохондрии Arabidopsis thaliana. Отдельно для каждого генома было посчитано среднее значение, для генома хлоропласта оно составило 427.533176, для митохондрии 19.360696

© Демкив Андрей 2013 Дата последнего изменения: 29.05.2015