Учебный сайт Мухалевой Лизаветы

Картирование на референсный геном

Картирование на хлоропласт и митохондрию

       В качестве референсного генома использовались геномы хлоропласта и митохондрии резуховидки Arabidopsis thaliana, на который картировались очищенные чтения из предыдущего практикума. Картирование проводилось при помощи программы BWA, и первым делом нужно было проиндексировать геном: bwa index genome.fasta

       Далее можно приступать к картированию. Оно проводилось при помощи BWA-MEM, основанный на выполнении локального выравнивания. Для данного практикума этот алгоритм подходит, так как он рассчитан на последовательности 70-100 нуклеотилов (наши как раз в этом диапозоне) и подходит для чтений, полученных с помощью Illumia. Использовалась следующая команда: bwa mem genome.fasta Ath_tae_CTTGTA_L003_R2_005_2.fastq > map.sam

       Далее проводится анализ полученных выравниваний, проводимый с помощью команады samtools. При работе с ней использовались следующие команды:


samtools view -b -S -h map.sam > bwa.bam #перевод в формат .bam, с которым работает команда

samtools sort bwa.bam bwa_sort #сортировка по левым координатам выравниваний

samtools index bwa_sort.bam #индексирование

samtools idxstats bwa_sort.bam #сколько чтений откартировалось на каждую органеллу

       На выходе последней команды получили табличку в Putty:

ENA|AP000423|AP000423.1 154478 665167 0
ENA|Y08501|Y08501.2 366924 71862 0
* 0 0 3108052

       Расшифровка таблицы следующая: геном хлоропласта (ENA|AP000423|AP000423.1) состоит из 154478 нуклеотидов, и на него откартировалось 665167 ридов. Геном митохондрии (ENA|Y08501|Y08501.2) состоит из 366924 нуклеотидов, и на него откартировалось 71862 ридов. Можно сделать вывод, что в секвенированном образце митоходриальной ДНК было примерно в 10 раз меньше.

       Также нужно было найти среднее покрытие для каждой из органелл. Для этого был получен следующий файл при помощи команды: samtools depth bwa_sort.bam > cover.txt. Он сожержит такие данные: название последовательности, на которую было произведено картирование, номер нуклеотида и количество ридов,которое покрывает этот нуклеотид. Далее в Excel было найдено среднее покрытие: для хлоропласта - 426,5, для митохондрии - 19,23.

© Mukhaleva Elizaveta, FBB MSU, 2013
Дата последнего изменения: 29.09.2014

Valid HTML 4.01 Strict Правильный CSS!