Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2024

Задания по сборке de novo

Для тех, кто не сдал практикум 14 в декабре

В процессе разработки

Отчёт — веб-страница (или pdf-файл) со ссылкой со страницы семестра.

Напишите С.А. Спирину <sas@fbb.msu.ru> и попросите выдать код доступа проекта секвенирования РНК из хлоропластов резуховидки Таля (Arabidopsis thaliana). Это будут чтения длины 101, полученные по технологии Illumina.

Если код доступа, например, SRR4240381, то чтения, полученные в проекте, доступны для скачивания со страницы https://www.ebi.ac.uk/ena/browser/view/SRR4240381 .

В директории /mnt/scratch/NGS/<your_username> создайте рабочую поддиректорию для этого практикума, перейдите в неё.

Скачайте архив с чтениями в рабочую директорию. Удобнее всего это сделать командой wget непосредственно из рабочей директории. Команда должна выглядеть примерно так:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240381/SRR4240381.fastq.gz

Адрес можно скопировать со страницы проекта: найдите ссылку на ...fastq.gz, щёлкните по ней правой кнопкой мыши и выберите "копировать ссылку". Выполните команду и дождитесь, когда архив с чтениями скачается.

После этого приступайте к работе. Имейте в виду, что эти чтения (в отличие от тех, с которыми вы имели дело в практикумах 11–13) — не парные, а одиночные (например, для trimmomatic нужна опция SE). Не забывайте после каждого этапа вносить в протокол, что делалось (команды) и что получилось (например, сколько чтений было удалено на каждом этапе подготовки и т.п.)

  1. Подготовка чтений программой trimmomatic.
    • Прежде всего надо удалить возможные остатки адаптеров. Для этого можно использовать следующий "step" программы trimmomatic: ILLUMINACLIP:adapters.fasta:2:7:7, где adapters.fasta — файл с адаптерами. Адаптеры для Illumina собраны в файлах в директории /mnt/scratch/NGS/adapters. Вполне разумное решение — создать свой файл, в котором объединить все адаптеры из этих файлов вместе. Укажите в отчёте, сколько процентов последовательностей чтений оказалось остатками адаптеров.

    • После этого удалите с правых концов чтений нуклеотиды с качеством ниже 20, оставьте только такие чтения, длина которых не меньше 32 нуклеотидов. Укажите в отчёте, сколько чтений было удалено, каковы размеры файлов до и после очистки.
  2. Запустите программу velveth, сначала с опцией -help. Разберитесь, как запустить её в данном случае. чтобы она на основе вашего файла подготовила k-меры длины k=31 (максимально возможной при нашей длине чтений). Практически во всём можно разобраться, читая help, но можно почитать и руководство. Длина k-мера называется hash_length, чтения в нашем случае короткие и не парные (short).

  3. Разберитесь, как запустить программу velvetg (сборка на основе k-меров) и запустите её. Укажите в отчёте N50, длины трёх самых длинных контигов и их покрытие. Есть ли контиги с аномально большим или аномально малым покрытием (более чем в 5 раз отличающимся от среднего покрытия трёх самых длинных контигов)? Если да, опишите два-три. Замечание: информацию о контигах берите непосредственно из файла contigs.fa, она содержится в описаниях последовательностей (т.е., строках, начинающихся с '>').

  4. Анализ. Запустите программу megablast для каждого из трёх самых длинных контигов по банку RefSeq, ограниченному на вид Arabidopsis thaliana. Приведите карты локального сходства контигов с найденными последовательностями. Напишите в отчёте, каковы координаты участка записи из банка, соответствующего контигу, характеристики выравнивания или выравниваний (число однонуклеотидных различий, число гэпов, какая доля контига выровнялась на банковскую последовательность). Про каждый контиг требуется понятное описание того, как именно он "ложится" на запись банка.

Для каждого контига найдите в аннотации записи RefSeq (поле Features) место, на которое выровнялся контиг, опишите, что известно про это место, сделайте выводы.

Напоминание о картах сходства. Зайдите на страницу BLASTN в NCBI, найдите чекбокс "Align two or more sequences" и отметьте его. Откроется два окошка: в верхнее поместите последовательность контига, в нижнее – AC найденной записи RefSeq (можно и наоборот), нажмите "BLAST". Выравниваний контига с банковской последовательностью может оказаться несколько. Чтобы понять, как контиг соотносится с записью банка, необходимо проанализировать все выданные выравнивания, обращая внимание прежде всего на часть контига, вошедшую в каждое выравнивание.

2024/3/task14-late (последним исправлял пользователь sas 2025-12-27 19:56:24)