Учебный сайт Софроновой Алины |
        Для этого практикума нам дан файл c геномом хлоропласта и митохондрии резуховидки Arabidopsis thaliana - genome.fasta, который будет использоваться в качестве референсного генома. Картировать будем очищенные риды из прошлого практикума.
        Картирование осуществлялось программой BWA (Burrows-Wheeler Alignment Tool).
Для всех алгоритмов работы этой программы необходимо проиндексировать референсный геном - команда bwa index genome.fasta
       Для анализа полученных выравниваний воспользуемся программой samtools. Данная программа работает с файлами в формате .bam. Для этого переводим данные из формата .sam в .bam c помощью комманды view(опция -b - выходной файл в формате .bam, -S - входной файл в формате.sam, и, наконец, -h - включает заголовок в выходной файл).        После сортируем полученный файл командой sort (сортировка по левым координатам выравниваний) и индексировать с помощью index.
samtools index bwa_sort.bam        Далее мы хотим узнать сколько чтений откартировалось на каждую органеллу. Для этого воспользуемся командой idxstats, которая выдает статистику в индексированном файле.
        На экран была выведена такая информация о статистике:
        Первая строка говорит нам о том, что на геном хлоропласта длиной 154478 а.о., откартировано 667242 ридов. На геном митохондрии (длина 366924 а.о.) откартировано 72397 чтений. Из статистики ясно, что в образцах для секвенирования митохондриальной ДНК было в разы меньше.
Посмотрим на покрытие отдельных нуклеотидов.
Был получен файл cover.txt. Каждая строчка этого файла содержит название последовательности, на которую было произведено картирование, номер нуклеотида и количество чтений,которое покрывает этот нуклеотид. При помощи Excel я нашла среднее покрытие: для митохондрии - 19,4, для хлоропласта - 427,5. Покрытие довольно большое (особенно для хлоропласта). Вернуться к 3 семестру |
© Алина Софронова, 2014 Дата последнего изменения: 08.12.2014 |