Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2024

Задания по сборке de novo

Отчёт — веб-страница (или pdf-файл) со ссылкой со страницы семестра. Срок выполнения — вечер 15 декабря 2025.

Найдите в таблице против своей фамилии код доступа проекта по секвенированию бактерии Buchnera aphidicola str. Tuc7. Если код доступа, например, SRR4240381, то чтения, полученные в проекте, доступны для скачивания со страницы https://www.ebi.ac.uk/ena/browser/view/SRR4240381 . Это короткие (длины 39) чтения, полученные по технологии Illumina.

В директории /mnt/scratch/NGS/<your_username> создайте рабочую поддиректорию для этого практикума, перейдите в неё.

Скачайте архив с чтениями в рабочую директорию. Удобнее всего это сделать командой wget непосредственно из рабочей директории. Команда должна выглядеть примерно так:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240381/SRR4240381.fastq.gz

Адрес можно скопировать со страницы проекта (найдите ссылку на ...fastq.gz, щёлкните по ней правой кнопкой мыши и выберите "копировать ссылку"). Выполните команду и дождитесь, когда архив с чтениями скачается.

После этого приступайте к работе. Имейте в виду, что эти чтения (в отличие от тех, с которыми вы имели дело раньше) — не парные, а одиночные (например, для trimmomatic нужна опция SE). Не забывайте после каждого этапа вносить в протокол, что делалось (команды) и что получилось (например, сколько чтений было удалено на каждом этапе подготовки и т.п.)

  1. Подготовка чтений программой trimmomatic.
    • Прежде всего надо удалить возможные остатки адаптеров. Для этого можно использовать следующий "step" программы trimmomatic: ILLUMINACLIP:adapters.fasta:2:7:7, где adapters.fasta — файл с адаптерами. Адаптеры для Illumina собраны в файлах в директории /mnt/scratch/NGS/adapters. Вполне разумное решение — создать свой файл, в котором объединить все адаптеры из этих файлов вместе. Укажите в отчёте, сколько процентов последовательностей чтений оказалось остатками адаптеров.

    • После этого удалите с правых концов чтений нуклеотиды с качеством ниже 20, оставьте только такие чтения, длина которых не меньше 32 нуклеотидов. Укажите в отчёте, сколько чтений было удалено, каковы размеры файлов до и после очистки.
  2. Запустите программу velveth, сначала с опцией -help. Разберитесь, как запустить её в данном случае. чтобы она на основе вашего файла подготовила k-меры длины k=31 (максимально возможной при нашей длине чтений). Практически во всём можно разобраться, читая help, но можно почитать и руководство. Длина k-мера называется hash_length, чтения в нашем случае короткие и не парные (short).

  3. Разберитесь, как запустить программу velvetg (сборка на основе k-меров) и запустите её. Укажите в отчёте N50, длины трёх самых длинных контигов и их покрытие. Есть ли контиги с аномально большим или аномально малым покрытием (более чем в 5 раз отличающимся от медианного)? Если да, опишите два-три. Замечание: информацию о контигах берите непосредственно из файла contigs.fa, она содержится в описаниях последовательностей (т.е., строках, начинающихся с '>').

  4. Анализ. Найдите в ENA, GenBank или RеfSeq полный геном (хромосому) любого другого штамма Buchnera aphidicola. Сравните программой megablast каждый из трёх самых длинных контигов с этой хромосомой. Приведите карты локального сходства. Напишите в отчёте, каковы координаты участка хромосомы, соответствующего контигу, характеристики выравнивания или выравниваний (число однонуклеотидных различий, число гэпов, какая доля контига выровнялась на геном). Про каждый контиг требуется понятное описание того, как именно он "ложится" на банковский геном.

Указание к п. 4 Зайдите на страницу BLASTN в NCBI, найдите чекбокс "Align two or more sequences" и отметьте его. Откроется два окошка: в верхнее поместите последовательность контига, в нижнее – AC генома (можно и наоборот), нажмите "BLAST". Выравниваний контига с хромосомой может оказаться несколько. Чтобы понять, как контиг соотносится с банковским геномом, необходимо проанализировать все выданные выравнивания, обращая внимание прежде всего на часть контига, вошедшую в каждое выравнивание.

Дополнительно

(можно делать в любом порядке, например, только 7 и т.п.)

  1. (*) Проделайте п.п. 2–3, но поставьте теперь длину слова 27 вместо 31. Сравните N50, длины и покрытие трёх самых больших контигов, достигнутые при k=27 и k=31, ещё что-нибудь.
  2. (*) Разберитесь, как запустить программу SPAdes (установлена на kodomo), и сделайте сборку этой программой. Сравните результаты с результатами программы Velvet на том же материале.
  3. (*) Сделайте другую очистку, например, примените такой step программы Trimmomatic: SLIDINGWINDOW:5:20 (что означает пройтись по каждому чтению скользящим окном длины пять и, если среднее качество в каком-нибудь окне окажется ниже 20, удалить эти пять букв и все, что правее). Сравните результаты сборки.

2024/3/task14 (последним исправлял пользователь sas 2025-12-09 09:41:33)