Учебный сайт Саши Погорельской Эмблема
Главная Семестры Скрипты Обо мне Ссылки
1 семестр
2 семестр
3 семестр
4 семестр
7 семестр
Строение
Формы
Комплексы
Банки
EMBOSS
BLAST
Prediction
Чтения
Анализ качества Картирование Сборка

Однонуклеотидные полиморфизмы, индели и сборка

В этом практикуме анализировалось картирование чтений на геном митохондрий и хлоропласта резуховидки, выполненное в прошлом задании. Для поиска количества полиморфизмов и инделей нужен файл в формате bfc. Создаие файла в несжатом формате bfc выполняется с помощью опции -u, опция -f отвечает за референсную последовательность:

samtools mpileup -u -f all.fasta sort.bam.bam > all.bcf

Подсчет количества полиморфизмов и инделей:

bcftools view -v -c -g all.bcf > all.vcf
grep 'INDEL;' all.vcf | wc -l
grep 'DP=' all.vcf | wc -l

В итоге, инделей 283, а полиморфизмов 674. Полученный файл в формате .vcf можно скачать здесь.

Для сборки генома использовался алгоритм velvet. В первую очередь, надо создать базу k-меров (команда velveth), а потом эти k-меры объединяются в контиги (команда velvetg):

velveth velveth_dir23 23 -fastq out.fastq
velvetg velveth_dir23 -cov_cutoff auto

Я попробовала сборку для разной длины k-меров, наилучший показатель N50 составил 246 нуклеотидов, то есть 50% генома покрыто контигами длиннее 246 нуклеотидов. Это значение для k-меров длины 23.

Десять самых длинных контигов принадлежат митохондриальному геному, их порядковые номера и длина указаны в таблице 1. Для определения принадлежности использовался локальный blast.

Таблица 1. Десять наиболее длинный контигов сборки

0





© Pogorelskaya Sasha Last modification date: 19.02.15