Учебная страница курса биоинформатики,
год поступления 2017
Практикум 14. Сборка генома de novo
Найдите в таблице против своего имени код доступа проекта по секвенированию бактерии Buchnera aphidicola. Если код доступа, например, SRR4240381, то сам проект доступен по адресу http://www.ebi.ac.uk/ena/data/view/SRR4240381.
Это короткие (длины 39) чтения, полученные по технологии Illumina
На странице проекта найдите ссылку для скачивания fastq-файла по протоколу FTP. Скачайте и сразу перенесите в рабочую директорию (/nfs/srv/databases/ngs/<ваш логин>). Там распакуйте программой gunzip.
После этого приступайте к работе. Не забывайте после каждого этапа вносить в протокол, что получилось (например, сколько чтений было удалено на каждом этапе подготовки и т.п.)
- Подготовка чтений программой trimmomatic.
Прежде всего надо удалить возможные остатки адаптеров. Для этого можно использовать следующий "step" программы trimmomatic: ILLUMINACLIP:adapters.fasta:2:7:7, где adapters.fasta – файл с адаптерами. Адаптеры для Illumina собраны в файлах в директории /P/y16/term3/block3/adapters. Вполне разумное решение –- создать свой файл, в котором объединить все адаптеры из этих файлов вместе.
После этого удалите плохие буквы с концов чтений (как в практикуме 11), оставив только чтения длиной не менее 30. Укажите в отчёте, сколько чтений было удалено, каковы размеры файлов до и после очистки.
Запустите программу velveth, сначала с опцией -help. Разберитесь, как запустить её в данном случае. чтобы она подготовила k-меры длины k=29 (максимально возможной при нашей длине чтений). Практически во всём можно разобраться, читая help, но можно почитать и руководство. Длина k-мера называется hash_length, чтения в нашем случае короткие и не парные (short).
Разберитесь, как запустить программу velvetg (сборка на основе k-меров) и запустите её. Укажите в отчёте N50, длины трёх самых длинных контигов и их покрытие. Есть ли контиги с аномально большим или аномально малым покрытием (более чем в 5 раз отличающимся от "типичного")? Если да, опишите два-три.
Анализ. Сравните программой megablast каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Напишите в отчёте, каковы координаты участка хромосомы, соответствующего контигу, характеристики выравнивания или выравниваний (число однонуклеотидных различий, число гэпов). Про каждый контиг требуется понятное описание того, как именно он "ложится" на банковский геном.
Указание к п. 4 Зайдите на страницу BLASTN в NCBI, найдите чекбокс "Align two or more sequences" и отметьте его. Откроется два окошка: в верхнее поместите последовательность контига, в нижнее – AC генома (можно и наоборот), нажмите "BLAST". Выравниваний контига с хромосомой может оказаться несколько. Чтобы понять, как контиг соотносится с банковским геномом, необходимо проанализировать все выданные выравнивания, обращая внимание прежде всего на часть контига, вошедшую в каждое выравнивание.
Дополнительно
- (*) Проделайте п.п. 2–3, но поставив длину слова 25 вместо 29. Сравните N50, длины трёх самых больших контигов, покрытие, достигнутые при k=25 и k=29.
(*) На kodomo, кроме Velvet, стоит и другой сборщик, SPAdes. Изучите его руководство, соберите с его помощью контиги и сравните результаты с результатами velvet.
- (*) Уберите половину ридов (например, взяв первую половину файла): насколько портится сборка?