Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2016

Задание 14 для опоздавших

Те, кто не сдал задание по сборке генома вовремя, то есть к утру 20 декабря, делятся на две категории:

Файлы fastq для второй категории лежат на kodomo в директории /nfs/srv/databases/ngs/sas/2017 (сжатые gzip). Это результаты секвенирования транскриптома резушки Arabidopsis thaliana. Вот распределение файлов по (потенциальным) членам второй категории:

Васильева, Ралдугина

A.fastq

Ириоглов, Сурикова

B.fastq

Матвеев, Черкашина

C.fastq

Никишова, Шкарина

D.fastq

Озеров, Эрмидис

E.fastq

Петрова, Потанина

F.fastq

Н.Попов

G.fastq

Ваша задача:

  1. Скопировать файл в свою рабочую директорию (/nfs/srv/databases/ngs/<login>) и разархивировать его программой gunzip.

  2. Очистить прочтения от адапторов (лежат в файлах в директории /P/y16/term3/block3/adapters).

  3. Убрать плохие буквы с концов. Требуется пройти скользящим окном (SLIDINGWINDOW) длины 5 по каждому прочтению и убрать части ридов после любого окна со средним качеством ниже 28. При этом надо удалить те прочтения, которые после очистки окажутся короче 32 букв. См. описание программы Trimmomatic.

  4. Выложить на свой сайт отчёт, из которого было бы понятно, как (и почему так) запускался trimmomatic, каковы объёмы исходного и получившегося в результате fastq-файлов (в мегабайтах и в числе прочтений).
  5. Запустить velveth для создания 31-меров (т.е., параметр hash_length должен быть равен 31). См. руководство пользователя пакета Velvet. Чтения в нашем случае короткие и не парные (short).

  6. Собрать контиги программой velvetg.
  7. Добавить к отчёту информацию о запуске velvet и результатах его работы. В частности, нужно указать N50, длину и покрытие трёх самых длинных контигов, длину и покрытие контигов с самым высоким и самым низким покрытием.
  8. Проаннотировать программой BLAST (на сайте NCBI) самый длинный контиг и контиги с максимальным и минимальным покрытием. В отчёте указать для каждого контига: банковскую аннотацию (организм и описание) лучшей находки, число выравниваний контига с этой находкой, выданных BLAST-ом, характеристики этих выравниваний (покрытие контига, процент идентичности).