Главная
Семестр 1
Семестр 2
Семестр 3
Семестр 4
О себе
Ссылки

SNP, индели и сборка

Наша задача - сравнить полученные ранее риды и референсный геном и найти различия (однонуклеотидные полиморфизмы (SNP) и индели). Для сравнения нам понадобится программа mpileup внутри уже известной нам samtools. (флажки для урегулирования форматов выводного и входных файлов). Строка запроса:
samtools mpileup -u -g -f organellas.fasta bwa_sort.bam > comp.bcf
Затем нужно получить список SNP и инделей. Для этого нам понадобится другая программа bcftools:
bcftools view -vcg comp.bcf > comp.vcf
В итоге получаем файл, в котором строки, начинающиеся с "DP=", соответствуют SNP, а строки, начинающиеся с "INDEL;", соответствуют инделям. Посчитаем их:
grep 'DP=' comp.vcf | wc -l
grep 'INDEL;' comp.vcf | wc -l
Итог: 653 SNP и 288 инделей.

Следующий шаг - сборка хлоропласта и митохондрии. Для сборки генома из ридов используют пакет velvet, который состоит из velveth и velvetg. У собранного в результате генома есть важная характеристика "N50", которая показывает длину контига, при которой 50% гипотетической длины последовательности покрываются контигами длины, равной N50. Мне было предложено попробовать изменять параметр "hash_length" в пределах от 15 до 97, чтобы найти ту длину k-мера, при которой N50 будет наибольшей. Итоговая строки запроса (hash_length=25 ; N50=246):
velveth velveth_dir25 25 -fastq result.fastq
velvetg velveth_dir25 -cov_cutoff auto
Из полученного (папки "velveth_dir25") нам нужен файл "stats.txt", в котором содержится информация о контигах, и файл "contigs.fa" с самими контигами, из которых мы отберем 10 по длине в файл "10contigs.fasta". И последнее, что нужно сделать - это blast контигов по нашему файлу с геномом хлоропласты и митохондрии:
makeblastdb -in organellas.fasta -dbtype nucl
blastn -task megablast -query 10contigs.fasta -db organellas.fasta -out blast_result -outfmt 7
Получаем файл "blast_result". Подробнее в таблице 1.

Таблица 1. 10 самых длинных контигов.
Номер контига
Длина контига
Геном
5787 6009 Митохондрия
2371 5248 Митохондрия
130701 4606 Митохондрия
46321 4536 Митохондрия
8799 4229 Митохондрия
15656 4213 Митохондрия
7573 4157 Митохондрия
5805 3843 Митохондрия
16589 3797 Митохондрия
20492 3795 Митохондрия