Учебная страница курса биоинформатики,
год поступления 2018
Задание 14 для опоздавших
Те, кто не сдал задание по сборке генома к зачёту 24 декабря, делятся на две категории:
- Успевшие сделать значительную часть, скажем, запустить trimmomatic и velveth. Такие должны к четвергу 26 декабря доделать (и оформить на своей странице!) сборку и написать мне (sas), чтобы получить индивидуальное задание по аннотации контигов (четвёртый пункт). Те, от кого я к 11 утра четверга не получаю письма с просьбой выдать задание (ну или если получу письмо, но не найду на сайте удовлетворительного описания сборки), автоматически переходят во вторую категорию, им придётся всё начинать сначала.
- Не начавшие или сделавшие очень мало. Такие получают полностью новое задание, на новом материале.
Файлы fastq для второй категории лежат на kodomo в директории /nfs/srv/databases/ngs/sas/2019 (сжатые gzip). Это результаты секвенирования транскриптома резушки Arabidopsis thaliana. Пишите, я сообщу, с каким файлом работать, каждому индивидуально.
Ваша задача:
Скопировать файл в свою рабочую директорию (/nfs/srv/databases/ngs/<login>) и разархивировать его программой gunzip.
Очистить прочтения от адапторов (лежат в файлах в директории /P/y18/term3/block3/adapters).
Убрать плохие буквы с концов. Требуется пройти скользящим окном (SLIDINGWINDOW) длины 5 по каждому прочтению и убрать части ридов после любого окна со средним качеством ниже 28. При этом надо удалить те прочтения, которые после очистки окажутся короче 32 букв. См. описание программы Trimmomatic.
- Выложить на свой сайт отчёт, из которого было бы понятно, как (и почему так) запускался trimmomatic, каковы объёмы исходного и получившегося в результате fastq-файлов (в мегабайтах и в числе прочтений).
Запустить velveth для создания 31-меров (т.е., параметр hash_length должен быть равен 31). См. руководство пользователя пакета Velvet. Чтения в нашем случае короткие и не парные (short).
- Собрать контиги программой velvetg.
- Добавить к отчёту информацию о запуске velvet и результатах его работы. В частности, нужно указать N50, длину и покрытие трёх самых длинных контигов, длину и покрытие контигов с самым высоким и самым низким покрытием.
- Проаннотировать программой BLAST (на сайте NCBI) самый длинный контиг и контиги с максимальным и минимальным покрытием. В отчёте указать для каждого контига: банковскую аннотацию (организм и описание) лучшей находки, число выравниваний контига с этой находкой, выданных BLAST-ом, характеристики этих выравниваний (покрытие контига, процент идентичности).