© Kholina Tatiana, 2013 You can contact me at tatiana96-khol@yandex.ru

Посчет количества SNP и инделей

С помощью samtools и bcftools я подсчитала количество SNP (однонуклеотидных замен) и инделей (вставок и делеций) в картированных в предыдущем практикуме ридах. Для этого выполнили команды:

 samtools mpileup -ugf organelles.fasta mapped.sorted.bam > mapped.bcf
 bcftools view -vcg mapped.bcf > mapped.vcf	

Первая команда создает bcf-файл со списком инделей и SNP, вторая переводит бинарный bcf в формат vcf. В файле vcf в каждой строчке записан либо SNP (обозначаемый 'DP'), либо индель ('INDEL'). Далее командой grep и wc -l можно подсчитать количество SNP и инделей в файле.

Количество SNP составило 675, а количество инделей - 292.

Сборка геномов хлоропласта и митохондрии

Используются программы пакета velvet. Сборка производится из очищенных ридов позапрошлого практикума.

velveth - программа, подготавливающая базу k-меров для программы velvetg. На вход подается название выходной директории, длина k-мера (hash length) и формат и название входного файла с ридами. Длина k-мера должна быть нечетной для избежания палиндромов, не выше 31 (т.к. записывается на 64 битах) и желательно выше 10 для достоверности. Я попробовала 3 длины: 31, 25 и 19. Например, для длины 25 команда выглядит так:

 velveth velveth_dir2 25 -fastq Trimmomatic_cleaned.fastq 

Далее с для каждой производилась команда:

 velvetg velveth_dir -cov_cutoff auto 

Для дальнейшей работы был выбран граф, построенный на k-мерах длиной 25, т.к. для них получилась наибольшее N50 - 242 (т.е. 50% длины последовательности покрываются контигами длиной не менее 242).

В Excel был импортирован файл stats.txt из созданной velvet директории, и сортирован по длине контига (нужно добавить, что настоящая длина контига будет на k-1 больше, чем приведенная в stats.txt длина). 10 самых длинных были выделены из файла contigs.fa в отдельный файл: [x] и по базе, сделанной из геномов митохондрии и хлоропласта был произведен локальный бласт этих длинных контигов. Как ни удивительно, все они оказались из митохондрии.

ID контига Длина контига Органелла
5670 5511 Митохондрия
3537 5488 Митохондрия
23635 5372 Митохондрия
217749 5317 Митохондрия
132809 4191 Митохондрия
4021 3947 Митохондрия
301786 3816 Митохондрия
126458 3605 Митохондрия
64675 3569 Митохондрия
43133 3430 Митохондрия