Учебная страница курса биоинформатики,
год поступления 2020
Задания практикума 15 (cборка de novo)
Срок выполнения — 22 декабря 2021.
Найдите в таблице против своего имени код доступа проекта по секвенированию бактерии Buchnera aphidicola. Если код доступа, например, SRR4240381, то чтения, полученные в проекте доступны для скачивания со страницы https://www.ebi.ac.uk/ena/browser/view/SRR4240381 . Это короткие (длины 39) чтения, полученные по технологии Illumina.
В директории /mnt/scratch/NGS/<your_username> создайте рабочую поддиректорию для этого практикума, перейдите в неё.
Скачайте архив с чтениями в рабочую директорию. Удобнее всего это сделать командой wget непосредственно из рабочей директории. Команда должна выглядеть примерно так:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240381/SRR4240381.fastq.gz
Адрес можно скопировать со страницы проекта (найдите ссылку на ...fastq.gz, щёлкните по ней правой кнопкой мыши и выберите "копировать ссылку"). Выполните команду и дождитесь, когда архив с чтениями скачается.
После этого приступайте к работе. Имейте в виду, что эти чтения (в отличие от тех, с которыми вы имели дело раньше) — не парные, а одиночные (например, для trimmomatic нужна опция SE). Не забывайте после каждого этапа вносить в протокол, что делалось (команды) и что получилось (например, сколько чтений было удалено на каждом этапе подготовки и т.п.)
- Подготовка чтений программой trimmomatic.
Прежде всего надо удалить возможные остатки адаптеров. Для этого можно использовать следующий "step" программы trimmomatic: ILLUMINACLIP:adapters.fasta:2:7:7, где adapters.fasta – файл с адаптерами. Адаптеры для Illumina собраны в файлах в директории /mnt/scratch/NGS/adapters. Вполне разумное решение –- создать свой файл, в котором объединить все адаптеры из этих файлов вместе. Укажите в отчёте, сколько процентов последовательностей чтений оказалось остатками адаптеров.
- После этого удалите с правых концов чтений нуклеотиды с качеством ниже 20, оставьте только такие чтения, длина которых не меньше 32 нуклеотидов. Укажите в отчёте, сколько чтений было удалено, каковы размеры файлов до и после очистки.
Запустите программу velveth, сначала с опцией -help. Разберитесь, как запустить её в данном случае. чтобы она на основе вашего файла подготовила k-меры длины k=31 (максимально возможной при нашей длине чтений). Практически во всём можно разобраться, читая help, но можно почитать и руководство. Длина k-мера называется hash_length, чтения в нашем случае короткие и не парные (short).
Разберитесь, как запустить программу velvetg (сборка на основе k-меров) и запустите её. Укажите в отчёте N50, длины трёх самых длинных контигов и их покрытие. Есть ли контиги с аномально большим или аномально малым покрытием (более чем в 5 раз отличающимся от "типичного")? Если да, опишите два-три.
Анализ. Сравните программой megablast каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Напишите в отчёте, каковы координаты участка хромосомы, соответствующего контигу, характеристики выравнивания или выравниваний (число однонуклеотидных различий, число гэпов). Про каждый контиг требуется понятное описание того, как именно он "ложится" на банковский геном.
Указание к п. 4 Зайдите на страницу BLASTN в NCBI, найдите чекбокс "Align two or more sequences" и отметьте его. Откроется два окошка: в верхнее поместите последовательность контига, в нижнее – AC генома (можно и наоборот), нажмите "BLAST". Выравниваний контига с хромосомой может оказаться несколько. Чтобы понять, как контиг соотносится с банковским геномом, необходимо проанализировать все выданные выравнивания, обращая внимание прежде всего на часть контига, вошедшую в каждое выравнивание.
Дополнительно
(можно делать в любом порядке, например, только 7 и т.п.)
- (*) Проделайте п.п. 2–3, но поставьте теперь длину слова 27 вместо 31. Сравните N50, длины и покрытие трёх самых больших контигов, достигнутые при k=27 и k=31, ещё что-нибудь.
- (*) Уберите половину чтений (например, взяв первую половину файла): насколько портится сборка?
(*) Сделайте другую очистку, например, примените такой step программы Trimmomatic: SLIDINGWINDOW:5:20 (что означает пройтись по каждому чтению скользящим окном длины пять и, если среднее качество в окне ниже 20, удалить эти пять букв и все, что правее). Сравните результаты сборки.