Учебный сайт Софроновой Алины
Поиск однонуклеотидных полиморфизмов и инделей

        В этом практикуме мы используем риды, откартированные на геном хлоропласта и митохондрии резуховидки Arabidopsis thaliana - genome.fasta. Еще в прошлом практикуме мы получила файл в формате .bam, в котором содержится информация об откартированных ридах. Сейчас же нашей задачей будет найти отличия в этих чтениях и референсной последовательности. Отличия могут быть нескольких типов. Однонуклеотидные полиморфизмы - отличия последовательностей в один нуклеотид вследствие точечной мутации, а также инделей - делеции (удаление нуклеотидов) или инсерции (вставка нуклеотидов).

        Сравнение ридов и референсного генома будем проводим, используя программы samtools и bcftools. Для этого нам понадобиться команда:

samtools mpileup -u -g -f genome.fasta bwa_sort.bam > 1.bcf

Команда создает файл в формате .bcf (необходим для работы с программой bcftools). -g, -u - выходные параметры опции mpileup, отвечающие за создание файла в .bcf формате в несжатом виде. -f - входной параметр, указывающий на fasta-формат референсной последовательности. Сам список однонуклеотидных полиморфизмов и инделей получаем при помощи программы bcftools командой:

bcftools view -vcg 1.bcf > 1.vcf

Был получен файл 1.vcf. В нем несколько колонок с информацией о полиморфизмах (поле DP) и инделях (INDEL). Так же там же можно посмотреть какие именно нуклеотиды отличаются, а так же левую координату области несоответствия. Для нашего задания нас будет интересовать только столбик FORMAT. Вытащим нужную информацию командой grep с опцией wc -l - подсчет строк, содержащих нужное слово:

grep 'INDEL;' 1.vcf | wc -l
grep 'DP=' 1.vcf | wc -l

В итоге было найдено 287 полиморфизмов и 672 инделей.

Сборка хлоропласта и митохондрии

        Наконец соберем геном хлоропласта и митохондрии из всех откартированных чтений пакетом velvet. Данная программа основывается на графах де Брёйна (применяется для коротких чтений длиной меньше 150). Пакет velvet состоит из двух программ: velveth для выделения k-меров из чтений ("hashing") и velvetg для сборки по графу k-меров. Поэкспериментируем с параметром hash_length (длина k-мера, то есть собственно число k), чтобы получить максимальное N50. N50 - длина контига, при котором контиги большей длины состовляют ровно половину от общей длины чтений. Наибольшее значение N50, равное 240 достигается при k = 25.

velveth velveth_dir_25 25 -fastq Ath_tae_CTTGTA_L003_R2_005_2.fastq
velvetg velveth_dir_25 -cov_cutoff auto

Получили директорию velveth_dir_25, а в нем три файла. В файле stats.txt содержится информация о контигах. Нам необходимо получить 10 самых длинных - их ID при помощи программы Excel, а сами последовательности были взяты из файла contigs.fa - the_longest.fasta. Принадлежность к митохондрии или хлоропласту определила, используя локальный бласт - blast.fasta. Информация об этих контигах приведена в Таблице 1.

Таблица 1. Информация о 10 самых длинных контигах, полученная при помощи локального бласта.

номер контига длина контига соответствующий геном
23584 7148 митохондрия
5793 5402 митохондрия
4025 5024 митохондрия
16927 4613 митохондрия
128801 4277 митохондрия
49434 4174 митохондрия
12217 4093 митохондрия
48541 3787 митохондрия
33679 3482 митохондрия
3627 3374 митохондрия


Вернуться к 3 семестру

© Алина Софронова, 2014
Дата последнего изменения: 08.12.2014