УЧЕБНЫЙ САЙТ АМОСОВОЙ АЛЁНЫ

Поиск однонуклеотидных полиморфизмов и инделей

Для поиска однонуклеотидных полиморфизмов и инделей в ридах, откартированных на геном хлоропласта и митохондрии Arabidopsis thaliana в предыдущем практикуме, воспользуемся программами samtools и bcftools. Сначала создадим файл в формате .bcf командой:
samtools mpileup -u -g -f hloropl+mitohondr.fasta map.sort.bam > 13_1.bcf

Далее используем команду:
bcftools view -vcg 13_1.bcf > 13_1.vcf получим файл со списком обнаруженных SNP и инделей. Подсчитаем, сколько нашлось инделей и SNP:
grep 'INDEL;' 13_1.vcf | wc -l (получилось 268)
grep 'DP=' 13_1.vcf | wc -l (получилось 666)

Сборка хлоропласта и митохондрии

Для сборки геномов хлоропласта и митохондрии будем использовался пакет velvet, включающего две программы: velveth и velvetg. Сборка осуществлялась из чтений, очищенных в одном из прошлых практикумов. Используемая команда: velveth 13_2_23 23 -fastq Ath_tae_CTTGTA_L003_R2_001_clean.fastq velvetg 13_2_23 -cov_cutoff auto Длина k-мера - 23. Первая команда разбивает все чтения на такие последовательности и создаёт папку с файлами,с которыми работает вторая команда, осуществляя сборку контигов и выводя строку с информацией, которая у меня выглядела так:
Final graph has 434609 nodes and n50 of 250, max 5291, total 49460198, using 0/3892659 reads
Таким образом, значение N50 = 250. Таблица (все митохондрии):

Длина   Номер
        
5313    13420
4295    140995
4187    17591
3771    39941
3374    15230
3303    136926
3192    6708
3115    45699
3112    130009
3112    58281

© Амосова Алена. 2013 год