Личный сайт
Просвирова Кирилла

Однонуклеотидные полиморфизмы, индели и сборка

Поиск однонуклеотидных полиморфизмов и инделей

Для выполнению задания были использованы риды, картированные на геномы из предыдущего практикума. Для выполнение работы с bcftools необходимы перевести файл в формат .bcf. Были использованы следующие команды:
  • samtools mpileup -ugf input.fasta aln.sorted.bam > pr14.bcf- создание файла в формате bcf, опции: -g - рассчет сходства генотипов и выдать файл в формате bcf, -u - выдача несжатого bcf, -f - приложение файла с референсной последовательностью
  • bcftools view -vcg pr14.bcf > pr14.vcf - расчет SNP и инделей
  • grep 'INDEL;' pr14.vcf | wc -l
  • grep 'DP=' pr14.vcf | wc -l
В итоге нашлось 19 инделей и 72 полиморфизма. Файл формата vcf можно получить по ссылке.

Сборка хлоропласта и митохондрии

Сборка осуществлялась с помощью пакета velvet, использующего алгоритмы с графом Де Брейне. С помощью двух команд был собран геном.
  • velveth velveth_dir 32 -fastq out.fastq - создание банка k-меров длиной 32
  • velvetg velveth_dir -cov_cutoff auto - соединение k-меров с помощью графа в контиги
NP50 - 109.
IDlgthoutinlong_covshort1_covshort1_Ocovshort2_covshort2_Ocovlong_nbshort1_nbshort2_nb
34445000.0000001.8337081.8337080.0000000.000000000
18407000.0000002.7469292.7469290.0000000.000000000
65368000.0000001.8614131.8614130.0000000.000000000
80351000.0000002.0370372.0370370.0000000.000000000
309337000.0000002.3412462.2492580.0000000.000000000
51335000.0000001.4597011.3641790.0000000.000000000
256317000.0000002.0283911.9305990.0000000.000000000
76304000.0000001.5888161.5888160.0000000.000000000
158289000.0000001.7889271.7889270.0000000.000000000
558273000.0000001.7326011.7326010.0000000.000000000

Таблица 1. Десять самых длинных контигов, информация получена из статистики с помощью сортировки в Excel

Просвиров Кирилл. Дата последнего изменения: 4 октября 2014.