|
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
Анализ качества и очистка чтений 1. Поиск однонуклеотидных полиморфизмов и инделейС помощью программ samtools и bcftools был получен список однонуклеотидных полиморфизмов и инделей для чтений из генома резуховидки, ранее очищенных и картированных на геномы хлоропласта и митохондрии. Файл, содержащий откартированные очищенные чтения, находится в формате .bam. На вход программе samtools был дан этот файл и файл, содержащий геномы хлоропласта и митохондрии в формате .fasta. Использовалась следующая команда с опциями –g, которая позволяет получить файл в формате .bcf, -u - несжатый вариант .bcf файла, -f , которая говорит о том, что файл с референсной последовательностью представлен в формате fasta
samtools mpileup - ugf сhl_and_mit.fasta sorted_bwa_aln.bam > all.bcf Далее с помощью программы bcftools был получен файл all.vcf, в котором содержался список однонуклеотидных полиморфизмов и инделей из исследуемых чтений, а потом при использовании программы grep было подсчитано их количество. Команды:
bcftools view -vcg all.bcf > all.vcf В результате работы этих программ было выявлено, что в исследуемых чтениях содержится 291 индель и 677 однонуклеотидных полиморфизмов. 2. Сборка хлоропласта и митохондрииСборку контигов можно осуществить с помощью пакета программ velvet. Для того чтобы собрать геном из чтений необходимо сначала для чтений создать базу из k-меров (программа velveth), а потом эти k-меры объдинить в контиги (программа velvetg). При этом k подбирается таким образом, что параметр характеризующий качество сборки N50 принимает свое наилучшее значение. В данном конкретном случае была произведена сборка геномов хлоропласта и митохондрии из очищенных чтений из генома резуховидки, а оптимальное значение параметра N50 (189) было достигнуто при k=31. Команды:
velveth velveth_dir_31 31 -fastq Ath_tae_CTTGTA_L003_R2_007_out.fastq В результате была получена папка velveth_dir_31, содержащая несколько файлов, из которых обратим особое внимание на файл с последовательностями полученных контигов (contigs.fa) и файл со статистикой (stats.txt). Из последнего файла с помощью Excel были определены 10 лучших контигов, для каждого из которых (последовательности контигов взяты из файла contigs.fa) была определена их принадлежность к геному хлоропласта или митохондрии с помощью локальной программы BLAST. В результате была составлена таблица 1, в которую помещена информация о десяти самых длинных контигах. Таблица 1.Информация о десяти самых длинных контигах, полученных в результате сборки геномов хлоропласта и митохондрии резуховидки.
|
||||||||||||||||||||||||||||||||||
© Alyona Koryagina aakor@fbb.msu.ru
Дата последнего изменения: 29.12.2014 |