Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Задания практикума 15 (cборка de novo)

Срок выполнения — 22 декабря 2021.

Найдите в таблице против своего имени код доступа проекта по секвенированию бактерии Buchnera aphidicola. Если код доступа, например, SRR4240381, то чтения, полученные в проекте доступны для скачивания со страницы https://www.ebi.ac.uk/ena/browser/view/SRR4240381 . Это короткие (длины 39) чтения, полученные по технологии Illumina.

В директории /mnt/scratch/NGS/<your_username> создайте рабочую поддиректорию для этого практикума, перейдите в неё.

Скачайте архив с чтениями в рабочую директорию. Удобнее всего это сделать командой wget непосредственно из рабочей директории. Команда должна выглядеть примерно так:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240381/SRR4240381.fastq.gz

Адрес можно скопировать со страницы проекта (найдите ссылку на ...fastq.gz, щёлкните по ней правой кнопкой мыши и выберите "копировать ссылку"). Выполните команду и дождитесь, когда архив с чтениями скачается.

После этого приступайте к работе. Имейте в виду, что эти чтения (в отличие от тех, с которыми вы имели дело раньше) — не парные, а одиночные (например, для trimmomatic нужна опция SE). Не забывайте после каждого этапа вносить в протокол, что делалось (команды) и что получилось (например, сколько чтений было удалено на каждом этапе подготовки и т.п.)

  1. Подготовка чтений программой trimmomatic.
    • Прежде всего надо удалить возможные остатки адаптеров. Для этого можно использовать следующий "step" программы trimmomatic: ILLUMINACLIP:adapters.fasta:2:7:7, где adapters.fasta – файл с адаптерами. Адаптеры для Illumina собраны в файлах в директории /mnt/scratch/NGS/adapters. Вполне разумное решение –- создать свой файл, в котором объединить все адаптеры из этих файлов вместе. Укажите в отчёте, сколько процентов последовательностей чтений оказалось остатками адаптеров.

    • После этого удалите с правых концов чтений нуклеотиды с качеством ниже 20, оставьте только такие чтения, длина которых не меньше 32 нуклеотидов. Укажите в отчёте, сколько чтений было удалено, каковы размеры файлов до и после очистки.
  2. Запустите программу velveth, сначала с опцией -help. Разберитесь, как запустить её в данном случае. чтобы она на основе вашего файла подготовила k-меры длины k=31 (максимально возможной при нашей длине чтений). Практически во всём можно разобраться, читая help, но можно почитать и руководство. Длина k-мера называется hash_length, чтения в нашем случае короткие и не парные (short).

  3. Разберитесь, как запустить программу velvetg (сборка на основе k-меров) и запустите её. Укажите в отчёте N50, длины трёх самых длинных контигов и их покрытие. Есть ли контиги с аномально большим или аномально малым покрытием (более чем в 5 раз отличающимся от "типичного")? Если да, опишите два-три.

  4. Анализ. Сравните программой megablast каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Напишите в отчёте, каковы координаты участка хромосомы, соответствующего контигу, характеристики выравнивания или выравниваний (число однонуклеотидных различий, число гэпов). Про каждый контиг требуется понятное описание того, как именно он "ложится" на банковский геном.

Указание к п. 4 Зайдите на страницу BLASTN в NCBI, найдите чекбокс "Align two or more sequences" и отметьте его. Откроется два окошка: в верхнее поместите последовательность контига, в нижнее – AC генома (можно и наоборот), нажмите "BLAST". Выравниваний контига с хромосомой может оказаться несколько. Чтобы понять, как контиг соотносится с банковским геномом, необходимо проанализировать все выданные выравнивания, обращая внимание прежде всего на часть контига, вошедшую в каждое выравнивание.

Дополнительно

(можно делать в любом порядке, например, только 7 и т.п.)

  1. (*) Проделайте п.п. 2–3, но поставьте теперь длину слова 27 вместо 31. Сравните N50, длины и покрытие трёх самых больших контигов, достигнутые при k=27 и k=31, ещё что-нибудь.
  2. (*) Уберите половину чтений (например, взяв первую половину файла): насколько портится сборка?
  3. (*) Сделайте другую очистку, например, примените такой step программы Trimmomatic: SLIDINGWINDOW:5:20 (что означает пройтись по каждому чтению скользящим окном длины пять и, если среднее качество в окне ниже 20, удалить эти пять букв и все, что правее). Сравните результаты сборки.

2020/3/task15 (последним исправлял пользователь sas 2021-12-23 08:42:43)