Учебный сайт Дюгая Ильи

Главная

Первый семестр

Второй семестр

Ссылки

Об авторе

Картирование на референсный геном

Картирование на геном хлоропласта и митохондрии резуховидки Таля (Arabidopsis thaliana) проводилось для "улучшенного" файла из предыдущего практикума.


Сперва геномы хлоропласта и митохондрии были помещены в один файл seq.fasta. Затем очищенные чтения были откартированы на эти геномы с помощью программы BWA.

Произведём индексацию последовательности: bwa index seq.fasta

Собственно картирование было осуществлено с помощью команды:
bwa mem seq.fasta Ath_tae_CTTGTA_L003_R1_006.fastq > bwa_seq.sam

Выбранный параметр mem говорит о том, что картирование производилось по BWA-MEM алгоритму, который подходит для чтений по длине больше 70 (в нашем файле таких больше всего).


Чтобы выяснить, сколько чтений откартировалось на каждую органеллу, была использована программа samtools.

Для этого сначала полученный ранее файл bwa_seq.sam нужно перевести в формат .bam: samtools view -S -b -o bwa_seq.bam bwa_seq.sam

Параметр -S говорит о том, что входной файл sam-формата, -b — выходной файл должен быть bam-формата. О других параметрах можно прочитать в мануале.


Далее отсортируем и проиндексируем bwa_seq.bam:
samtools sort bwa_seq.bam bwa_seq.sorted; samtools index bwa_seq.sorted.bam

Получим нужную нам статистику командой:
samtools idxstats bwa_seq.sorted.bam > seq_res.txt


Полученный файл можно скачать по ссылке. Его содержимое представлено ниже:

ENA|AP000423|AP000423.1	154478	448928	0
ENA|Y08501|Y08501.2	366924	49827	0
*	0	0	2107004

Строчка с ID AP000423.1 соответствует геному хлоропласта. Длина генома — 154478 нуклеотидов, на него откартировалось 448928 чтений. Вторая строка соответствует митохондрии. Её геном длиной 366924 нуклеотида, и на него откартировалось всего 49827 рида. Можно сделать вывод, что количество хлоропластов значительно преобладает, что довольно понятно для растения.


Далее можно определить среднее покрытие каждой из органелл. С помощью "samtools depth" вычислим покрытие для каждого нуклеотида. Используем команду:
samtools depth bwa_seq.sorted.bam > seq_cover.txt

Полученный файл можно загрузить отсюда.

С помощью Excel были посчитаны средние покрытия для каждой из органелл: для хлоропласта — 292, митохондрии — 14.

Дата последнего обновления: 16.02.2015
Copyright © Дюгай Илья, 2014.