Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2018

Задание 14 для опоздавших

Те, кто не сдал задание по сборке генома к зачёту 24 декабря, делятся на две категории:

Файлы fastq для второй категории лежат на kodomo в директории /nfs/srv/databases/ngs/sas/2019 (сжатые gzip). Это результаты секвенирования транскриптома резушки Arabidopsis thaliana. Пишите, я сообщу, с каким файлом работать, каждому индивидуально.

Ваша задача:

  1. Скопировать файл в свою рабочую директорию (/nfs/srv/databases/ngs/<login>) и разархивировать его программой gunzip.

  2. Очистить прочтения от адапторов (лежат в файлах в директории /P/y18/term3/block3/adapters).

  3. Убрать плохие буквы с концов. Требуется пройти скользящим окном (SLIDINGWINDOW) длины 5 по каждому прочтению и убрать части ридов после любого окна со средним качеством ниже 28. При этом надо удалить те прочтения, которые после очистки окажутся короче 32 букв. См. описание программы Trimmomatic.

  4. Выложить на свой сайт отчёт, из которого было бы понятно, как (и почему так) запускался trimmomatic, каковы объёмы исходного и получившегося в результате fastq-файлов (в мегабайтах и в числе прочтений).
  5. Запустить velveth для создания 31-меров (т.е., параметр hash_length должен быть равен 31). См. руководство пользователя пакета Velvet. Чтения в нашем случае короткие и не парные (short).

  6. Собрать контиги программой velvetg.
  7. Добавить к отчёту информацию о запуске velvet и результатах его работы. В частности, нужно указать N50, длину и покрытие трёх самых длинных контигов, длину и покрытие контигов с самым высоким и самым низким покрытием.
  8. Проаннотировать программой BLAST (на сайте NCBI) самый длинный контиг и контиги с максимальным и минимальным покрытием. В отчёте указать для каждого контига: банковскую аннотацию (организм и описание) лучшей находки, число выравниваний контига с этой находкой, выданных BLAST-ом, характеристики этих выравниваний (покрытие контига, процент идентичности).