Главная страница | Обучение | Обо мне | Ссылки | ||||||||||||
Сборка de novo | |||||||||||||||
Задание 1. Для сборки контигов был взят очищенный в предыдущем практикуме (Ресеквенирование) файл с чтениями chr4_out.fastq. Сначала из чтений были выделены k-меры длиной 31 с помощью программы velveth с параметрами, указанными на рис. 1.
Рис. 1. Команда velveth, с помощью которой были получены контиги. chr4 - директория, созданная для работы этой программы. Затем была проведена сборка полученных контигов программой velvetg chr4 (скриншот не приводится). В результате был получен файл с контигами contigs.fa. Характеристики сборки указаны в Таблице 1. Также была сделана сборка с другими значениями k: k = 25, k = 19. Характеристики этих сборок отличались от сборки с k = 31. Они приведены в Таблице 1. Таблица 1. Характеристики сборок по файлу chr4_out.fastq с различными длинами k-меров.
Из Таблицы 1 видно, что при уменьшении длины k-мера уменьшается длина самого большого контига, а вот N50 меняется не прямо пропорционально k. Задание 2. Была создана база blast (последовательность хромосомы 4 человека) командой makeblastdb -dbtype nucl -in chr4.fasta -out chr4.
Затем проведен blastn для всех контигов. Итоговая таблица картированных на четвертую хромосому чтений: contigs_chr4.xls.
Повторяющиеся контиги:
Остальные 156 контигов картируются на 4-ую хромосому единственным образом; они приведены в contigs_chr4.xls (лист contigs_once) На листе contigs_once есть колонка "Разрывы", указывающая, сколько нуклеотидов находится между концом одного контига и началом другого по хромосоме. Есть довольно длинные разрывы (тысячи пн). Это в принципе ожидаемо, если учитывать то, что были взяты чтения экзома, т.е. только кодирующих последовательностей, а в геноме существуют так же интроны (которые входят в состав пре-мРНК) и другие некодирующие посл-ти (РНК на них не образуется). Есть также разрывы с отрицательным значением, то есть 2 контига накладываются друг на друга. Однако, вероятно, они не объединились из-за того, что в месте наложения их последовательности немного различаются. Многократно откартированные контиги могут свидетельствовать о том, что в них содержатся такие последовательности, которые часто встречаются в геноме. Это могут быть транспозоны или какие-то другие мобильные элементы генома. | |||||||||||||||
© Alexandra Boyko, 2014. Faculty of Bioengineering and Bioinformatics, MSU. |