Учебный сайт Алены Корягиной

Анализ качества и очистка чтений

1. Поиск однонуклеотидных полиморфизмов и инделей

С помощью программ samtools и bcftools был получен список однонуклеотидных полиморфизмов и инделей для чтений из генома резуховидки, ранее очищенных и картированных на геномы хлоропласта и митохондрии. Файл, содержащий откартированные очищенные чтения, находится в формате .bam. На вход программе samtools был дан этот файл и файл, содержащий геномы хлоропласта и митохондрии в формате .fasta. Использовалась следующая команда с опциями –g, которая позволяет получить файл в формате .bcf, -u - несжатый вариант .bcf файла, -f , которая говорит о том, что файл с референсной последовательностью представлен в формате fasta

samtools mpileup - ugf сhl_and_mit.fasta sorted_bwa_aln.bam > all.bcf

Далее с помощью программы bcftools был получен файл all.vcf, в котором содержался список однонуклеотидных полиморфизмов и инделей из исследуемых чтений, а потом при использовании программы grep было подсчитано их количество. Команды:

bcftools view -vcg all.bcf > all.vcf
grep 'INDEL;' all.vcf | wc -l
grep 'DP=' all.vcf | wc -l

В результате работы этих программ было выявлено, что в исследуемых чтениях содержится 291 индель и 677 однонуклеотидных полиморфизмов.

2. Сборка хлоропласта и митохондрии

Сборку контигов можно осуществить с помощью пакета программ velvet. Для того чтобы собрать геном из чтений необходимо сначала для чтений создать базу из k-меров (программа velveth), а потом эти k-меры объдинить в контиги (программа velvetg). При этом k подбирается таким образом, что параметр характеризующий качество сборки N50 принимает свое наилучшее значение. В данном конкретном случае была произведена сборка геномов хлоропласта и митохондрии из очищенных чтений из генома резуховидки, а оптимальное значение параметра N50 (189) было достигнуто при k=31. Команды:

velveth velveth_dir_31 31 -fastq Ath_tae_CTTGTA_L003_R2_007_out.fastq
velvetg velveth_dir_31 -cov_cutoff auto

В результате была получена папка velveth_dir_31, содержащая несколько файлов, из которых обратим особое внимание на файл с последовательностями полученных контигов (contigs.fa) и файл со статистикой (stats.txt). Из последнего файла с помощью Excel были определены 10 лучших контигов, для каждого из которых (последовательности контигов взяты из файла contigs.fa) была определена их принадлежность к геному хлоропласта или митохондрии с помощью локальной программы BLAST. В результате была составлена таблица 1, в которую помещена информация о десяти самых длинных контигах.

Таблица 1.Информация о десяти самых длинных контигах, полученных в результате сборки геномов хлоропласта и митохондрии резуховидки.

№ контига Длина контига Принадлежность к геному
14 386 7 386 митохондрия
8 190 7 244 митохондрия
13 354 5 716 митохондрия
5 898 5 706 митохондрия
11 471 5 381 митохондрия
28 221 5 086 митохондрия
1 001 4 849 митохондрия
144 4 742 митохондрия
25 198 4 181 митохондрия
15 635 4 141 митохондрия
© Alyona Koryagina aakor@fbb.msu.ru

Дата последнего изменения: 29.12.2014