Химическое строение нуклеиновых кислот


Третий семестр

Главная



Однонуклеотидные полиморфизмы, индели и сборка

Поиск однонуклеотидных полиморфизмов и инделей

В этом практикуме будем работать с картированными на геном ридами из прошлого практикума. Нужно получить спискок однонуклеотидных полиморфизмов (SNP) и инделей (то есть делеций и инсерций). Для выполнения работы с bcftools необходимы перевести файл в формат .bcf. Были использованы следующие команды:

  • samtools mpileup -ugf chl_mth.fasta aln_sorted.bam > pr14.bcf — создание файла в формате bcf, опции: -g — расчет сходства генотипов + выдать файл в формате bcf, -u — выдача несжатого bcf, -f — приложение файла с референсной последовательностью
  • bcftools view -vcg pr14.bcf > pr14.vcf — расчет SNP и инделей
  • grep 'INDEL;' pr14.vcf | wc -l — подсчет количества инделей
  • grep 'DP=' pr14.vcf | wc -l — подсчет количества SNP

    В итоге нашлось 21 инделей и 94 полиморфизма. Выходной файл формата vcf можно посмотреть по ссылке.

    Сборка хлоропласта и митохондрии

    Сборка осуществлялась с помощью пакета velvet, использующего алгоритмы с графом Де Брёйне. С помощью двух команд был собран геном.

  • velveth velveth_dir 32 -fastq out.fastq — создание банка k-меров длиной 32
  • velvetg velveth_dir -cov_cutoff auto — соединение k-меров с помощью графа в контиги

    В таблице показаны десять самых длинных контигов.

    Таблица 1. 10 самыx длинных контигов (из файла). Принадлежность определнена с помощью blast.

    ID контигадлинапринадлежность
    34445хлоропласт
    18407хлоропласт
    65368хлоропласт
    80351хлоропласт
    309337хлоропласт
    51335хлоропласт
    256317хлоропласт
    76304хлоропласт
    158289хлоропласт

    © Рябых Григорий, 2014

    Последнее обновление: 16.09.2014