Учебная страница курса биоинформатики,
год поступления 2016
Задание 14 для опоздавших
Те, кто не сдал задание по сборке генома вовремя, то есть к утру 20 декабря, делятся на две категории:
- Успевшие сделать значительную часть, скажем, запустить trimmomatic и velveth. Такие должны к понедельнику 25 декабря доделать (и оформить на своей странице!) сборку и написать мне (sas), чтобы получить индивидуальное задание по аннотации контигов. Те, от кого я к семи вечера понедельника не получаю письма с просьбой выдать задание (ну или если получу письмо, но не найду на сайте удовлетворительного описания сборки), автоматически переходят во вторую категорию, им придётся всё начинать сначала.
- Не начавшие или сделавшие очень мало. Такие получают полностью новое задание, на новом материале.
Файлы fastq для второй категории лежат на kodomo в директории /nfs/srv/databases/ngs/sas/2017 (сжатые gzip). Это результаты секвенирования транскриптома резушки Arabidopsis thaliana. Вот распределение файлов по (потенциальным) членам второй категории:
Васильева, Ралдугина |
A.fastq |
Ириоглов, Сурикова |
B.fastq |
Матвеев, Черкашина |
C.fastq |
Никишова, Шкарина |
D.fastq |
Озеров, Эрмидис |
E.fastq |
Петрова, Потанина |
F.fastq |
Н.Попов |
G.fastq |
Ваша задача:
Скопировать файл в свою рабочую директорию (/nfs/srv/databases/ngs/<login>) и разархивировать его программой gunzip.
Очистить прочтения от адапторов (лежат в файлах в директории /P/y16/term3/block3/adapters).
Убрать плохие буквы с концов. Требуется пройти скользящим окном (SLIDINGWINDOW) длины 5 по каждому прочтению и убрать части ридов после любого окна со средним качеством ниже 28. При этом надо удалить те прочтения, которые после очистки окажутся короче 32 букв. См. описание программы Trimmomatic.
- Выложить на свой сайт отчёт, из которого было бы понятно, как (и почему так) запускался trimmomatic, каковы объёмы исходного и получившегося в результате fastq-файлов (в мегабайтах и в числе прочтений).
Запустить velveth для создания 31-меров (т.е., параметр hash_length должен быть равен 31). См. руководство пользователя пакета Velvet. Чтения в нашем случае короткие и не парные (short).
- Собрать контиги программой velvetg.
- Добавить к отчёту информацию о запуске velvet и результатах его работы. В частности, нужно указать N50, длину и покрытие трёх самых длинных контигов, длину и покрытие контигов с самым высоким и самым низким покрытием.
- Проаннотировать программой BLAST (на сайте NCBI) самый длинный контиг и контиги с максимальным и минимальным покрытием. В отчёте указать для каждого контига: банковскую аннотацию (организм и описание) лучшей находки, число выравниваний контига с этой находкой, выданных BLAST-ом, характеристики этих выравниваний (покрытие контига, процент идентичности).