Главная страница Обучение Обо мне Ссылки

Сборка de novo

Задание 1.

Для сборки контигов был взят очищенный в предыдущем практикуме (Ресеквенирование) файл с чтениями chr4_out.fastq.

Сначала из чтений были выделены k-меры длиной 31 с помощью программы velveth с параметрами, указанными на рис. 1.

Рис. 1. Команда velveth, с помощью которой были получены контиги. chr4 - директория, созданная для работы этой программы.

Затем была проведена сборка полученных контигов программой velvetg chr4 (скриншот не приводится). В результате был получен файл с контигами contigs.fa. Характеристики сборки указаны в Таблице 1.

Также была сделана сборка с другими значениями k: k = 25, k = 19. Характеристики этих сборок отличались от сборки с k = 31. Они приведены в Таблице 1.

Таблица 1. Характеристики сборок по файлу chr4_out.fastq с различными длинами k-меров.

Длина k-мераN50Max длина контига
k = 312131436
k = 252011349
k = 192171134

Из Таблицы 1 видно, что при уменьшении длины k-мера уменьшается длина самого большого контига, а вот N50 меняется не прямо пропорционально k.

Задание 2.

Была создана база blast (последовательность хромосомы 4 человека) командой makeblastdb -dbtype nucl -in chr4.fasta -out chr4. Затем проведен blastn для всех контигов. Итоговая таблица картированных на четвертую хромосому чтений: contigs_chr4.xls. Повторяющиеся контиги:

  • Контиг 100 откартировался 2944 раза
  • Контиг 11 - 4 раза
  • Контиг 235 - 22 раза
  • Контиг 236 - 16 раз
  • Контиг 237 - 62 раза
  • Контиг 238 - 48 раз
  • Kонтиг 285 - 8 раз
  • Контиг 3 - 6 раз
  • Контиг 73 - 3773 раза

Остальные 156 контигов картируются на 4-ую хромосому единственным образом; они приведены в contigs_chr4.xls (лист contigs_once)

На листе contigs_once есть колонка "Разрывы", указывающая, сколько нуклеотидов находится между концом одного контига и началом другого по хромосоме. Есть довольно длинные разрывы (тысячи пн). Это в принципе ожидаемо, если учитывать то, что были взяты чтения экзома, т.е. только кодирующих последовательностей, а в геноме существуют так же интроны (которые входят в состав пре-мРНК) и другие некодирующие посл-ти (РНК на них не образуется). Есть также разрывы с отрицательным значением, то есть 2 контига накладываются друг на друга. Однако, вероятно, они не объединились из-за того, что в месте наложения их последовательности немного различаются. Многократно откартированные контиги могут свидетельствовать о том, что в них содержатся такие последовательности, которые часто встречаются в геноме. Это могут быть транспозоны или какие-то другие мобильные элементы генома.

На страницу третьего семестра


© Alexandra Boyko, 2014. Faculty of Bioengineering and Bioinformatics, MSU.