Учебная страница курса биоинформатики,
год поступления 2015
Практикум 15. Сборка генома de novo
Найдите в таблице против своего имени код доступа проекта по секвенированию бактерии Buchnera aphidicola. Если код доступа, например, SRR4240381, то сам проект доступен по адресу http://www.ebi.ac.uk/ena/data/view/SRR4240381.
Это короткие (длины 36) чтения, полученные по технологии Illumina
На странице проекта найдите ссылку для скачивания fastq. Скачайте и сразу перенесите в рабочую директорию (/nfs/srv/databases/ngs/<ваш логин>). Там распакуйте программой gunzip.
После этого приступайте к работе. Не забывайте после каждого этапа вносить в протокол, что получилось (например, сколько чтений было удалено на каждом этапе подготовки и т.п.)
- Подготовка чтений программой trimmomatic.
Прежде всего надо удалить возможные остатки адаптеров. Для этого можно использовать следующий "step" программы trimmomatic: ILLUMINACLIP:adapters.fasta:2:7:7, где adapters.fasta – файл с адаптерами. Адаптеры для Illumina собраны в файлах в директории /P/y15/term3/block4/adapters. Вполне разумное решение –- создать свой файл, в котором объединить все адаптеры из этих файлов вместе.
После этого удалите плохие буквы с концов чтений (как в практикуме 13), оставив только чтения длиной не менее 30. Укажите в отчёте, сколько чтений было удалено, каковы размеры файлов до и после очистки.
Запустите программу velveth, сначала с опцией -help. Разберитесь, как запустить её в данном случае. чтобы она подготовила k-меры длины k=29 (максимально возможной при нашей длине чтений). Практически во всём можно разобраться, читая help, но можно почитать и руководство. Длина k-мера называется hash_length, чтения в нашем случае короткие и не парные (short).
Разберитесь, как запустить программу velvetg (сборка на основе k-меров) и запустите её. Укажите в отчёте N50, длины трёх самых длинных контигов и их покрытие. Есть ли контиги с аномально большим или аномально малым покрытием (более чем в 5 раз отличающимся от "типичного")? Если да, опишите два-три.
Анализ. Сравните программой megablast каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Напишите в отчёте, каковы координаты участка хромосомы, соответствующего контигу, характеристики выравнивания или выравниваний (число однонуклеотидных различий, число гэпов). То же проделайте для двух контигов с аномально большим покрытием (если таковые были). Попытайтесь ответить на вопрос: что это за последовательности и почему у них такое большое покрытие?
Указание к п. 4 Зайдите на страницу BLASTN в NCBI, найдите чекбокс "Align two or more sequences" и отметьте его. Откроется два окошка: в верхнее поместите последовательность контига, в нижнее – AC генома (можно и наоборот), нажмите "BLAST".
Дополнительно
- (*) Проделайте п.п. 2–4, но поставив длину слова 25 вместо 29. Сравните N50, длины трёх самых больших контигов, покрытие, достигнутые при k=25 и k=29.
(*) На kodomo, кроме Velvet, стоит и другой сборщик, SPAdes. Изучите его руководство, соберите с его помощью контиги и сравните результаты с результатами velvet.
- (*) Уберите половину ридов (например, взяв первую половину файла): насколько портится сборка?