Учебный сайт Мухалевой Лизаветы | ||||
Главная | Обо мне | Семестры | Скрипты | Ссылки |
Однонуклеотидные полиморфизмы, индели и сборкаПоиск однонуклеотидных полиморфизмов и инделей        В этом практикуме с помощью программ samtools и bcftools нужно было получить список однонуклеотидных полиморфизмов (SNP) и инделей (то есть делеций и инсерций) для ридов, картированных на геномы хлоропласта и митохондрии из предыдущего практикума. Так как обе команды соят на kodomo, для них были составлены следующие команды: samtools mpileup -u -g -f genomes.fasta bwa_sort.bam > genomes.bcf и bcftools view -vcg genomes.bcf > genomes.vcf. Пояснения в составлении команд: -f: отсылка на входной файл в fasta-формате, -g, -u: создание файла в несжатом виде.В итоге был получен файл - genomes.vcf        С помощью команды grep можно извлечь, сколько в файле инделей и сколько полиморфизмов: grep 'INDEL;' genomes.vcf | wc -l и grep 'DP=' 1.vcf | wc -l. Оказалось, что было найдено 283 полиморфизмов и 650 инделей. Сборка хлоропласта и митохондрии        При сборке контигов используется пакет velvet. Он делится на две части: velveth - создание банка k-меров и velvetg - собственно, сборка. Проварьировав длину k-мера, я остановилась на длине в 23 нуклеотида, так как при неё было наибольшее значение N50=241 (это означает, что половина длины гипотетической последовательности покрывается контигами длины от 241 и выше). velveth velveth_dir_23 23 -fastq Ath_tae_CTTGTA_L003_R2_002_cleaned.fastq velvetg velveth_dir_23 -cov_cutoff auto        В таблице 1 приведена информация о десяти самых длинных контигах. Для уточнения, какому организму относится каждая последовательность, использовался локальный BLAST. Таблица 1. Информация о 10 самых длинных контигах.
| |||||||||||||||||||||||||||||||||||||
© Mukhaleva Elizaveta, FBB MSU, 2013 Дата последнего изменения: 15.09.2013 |