Учебный сайт Саши Погорельской Эмблема
Главная Семестры Скрипты Обо мне Ссылки
1 семестр
2 семестр
3 семестр
4 семестр
7 семестр
Строение
Формы
Комплексы
Банки
EMBOSS
BLAST
Prediction
Чтения
Анализ качества Картирование Сборка

Картирование на референсный геном

Для работы использовались очищеные чтения с прошлого практикума. А в качестве референсного генома - последовательность генома хлороспласта и митохондрии резуховидки.

Для начала нужно индексировать геномы, для этого нужна следующая команда:

bwa index all.fasta

Далее было запущено собственно картирование:

bwa mem all.fasta out.fastq > new.sam

Пакет программ samtools работает с полученными выравниваниями. Во-первых, файл был переведен в формат .bam (опция -b - формат выходного файла, опция -S - формат исходного файла, опция -h - включение заголовка), потом полученный файл был отсортирован и проиндексирован. Результат последней команды - статистика о работе программ.

samtools view -b -S -h new.sam > new.bam
samtools sort new.bam sort.bam
samtools index sort.bam.bam
samtools idxstats sort.bam.bam

На геном хлоропласта длиной 154478 нуклеотидов было положено 670678 ридов, а на геном митохондрии (длиной 366924) - 72610. Не смотря на то, что геном митохондрии больше, на нее картировалось меньше чтений, разумным объяснением может быть то, что риды получены из зеленых частей растений.

Для получения дополнительной статистики по покрытию каждого нуклеотида использовалась следующая команда:

samtools depth sort.bam.bam > cover.txt

Результат - файл с набором чисел (количества положенных ридов) для каждого нуклеотида обеих органелл. С помощью Excel я посчитала среднее значение этого показателя. Для хлороспласта эта величина составила 121 чтение на нуклеотид, а для митохондрии - 19.





© Pogorelskaya Sasha Last modification date: 19.02.15