Однонуклеотидные полиморфизмы, индели и сборка

Поиск однонуклеотидных полиморфизмов и инделей

Для выполнения задания были использованы чтения, картированные на геномы хлоропласта и митохондрии, из предыдущего задания. Для того, чтобы программа bcftools смогла их обработать, надо создать файл в формате .bcf. Команда для этого:

samtools mpileup -u -g -f 1.fasta sort.bam.bam > 1.bcf

Затем были подсчитаны количества полиморфизмов и инделей:

bcftools view -v -c -g 1.bcf > 1.vcf

С помощью команд grep и wc было посчитано, что инделей нашлось 303, а полиморфизмов 619. Файл в формате .vcf можено скачать здесь.

Сборка хлоропласта и митохондрии

Сборку контигов можно осуществить с помощью алгоритма пакета velvet. Сначала нужно создать банк k-меров программой velveth, а потом произвести сборку программой velvetg. После нескольких проб была выбрана длина k-мера в 23 нуклеотида.

velveth velveth_dir3 23 -fastq out8.fastq
velvetg velveth_dir3 -cov_cutoff auto

N50 составило 133 нуклеотидова, то есть 50% длины гипотетической последовательности покрываются контигами длины 133 и более.

Информация о десяти самых длинных контигах приведена в таблице 1. Принадлежность к митохондирии/хлоропласту определялась результатами локального blast.

Таблица 1. Информация о десяти самых длинных контигах
Длина Номер Принадлежность
3086 290701 Митохондрия
2549 7052 Митохондрия
2505 41131 Митохондрия
2307 174536 Митохондрия
2100 29340 Митохондрия
2089 360472 Митохондрия
2045 595753 Митохондрия
1992 5715 Митохондрия
1984 150237 Митохондрия
1760 74989 Митохондрия
© Маслова Валентина, 2014
Последнее изменение: 24.09.2014