Учебная страница курса биоинформатики,
год поступления 2018

Задание 14 для опоздавших

Те, кто не сдал задание по сборке генома к зачёту 24 декабря, делятся на две категории:

Успевшие сделать значительную часть, скажем, запустить trimmomatic и velveth. Такие должны к четвергу 26 декабря доделать (и оформить на своей странице!) сборку и написать мне (sas), чтобы получить индивидуальное задание по аннотации контигов (четвёртый пункт). Те, от кого я к 11 утра четверга не получаю письма с просьбой выдать задание (ну или если получу письмо, но не найду на сайте удовлетворительного описания сборки), автоматически переходят во вторую категорию, им придётся всё начинать сначала.
Не начавшие или сделавшие очень мало. Такие получают полностью новое задание, на новом материале.

Файлы fastq для второй категории лежат на kodomo в директории /nfs/srv/databases/ngs/sas/2019 (сжатые gzip). Это результаты секвенирования транскриптома резушки Arabidopsis thaliana. Пишите, я сообщу, с каким файлом работать, каждому индивидуально.

Ваша задача:

Скопировать файл в свою рабочую директорию (/nfs/srv/databases/ngs/<login>) и разархивировать его программой gunzip.
Очистить прочтения от адапторов (лежат в файлах в директории /P/y18/term3/block3/adapters).
Убрать плохие буквы с концов. Требуется пройти скользящим окном (SLIDINGWINDOW) длины 5 по каждому прочтению и убрать части ридов после любого окна со средним качеством ниже 28. При этом надо удалить те прочтения, которые после очистки окажутся короче 32 букв. См. описание программы Trimmomatic.
Выложить на свой сайт отчёт, из которого было бы понятно, как (и почему так) запускался trimmomatic, каковы объёмы исходного и получившегося в результате fastq-файлов (в мегабайтах и в числе прочтений).
Запустить velveth для создания 31-меров (т.е., параметр hash_length должен быть равен 31). См. руководство пользователя пакета Velvet. Чтения в нашем случае короткие и не парные (short).
Собрать контиги программой velvetg.
Добавить к отчёту информацию о запуске velvet и результатах его работы. В частности, нужно указать N50, длину и покрытие трёх самых длинных контигов, длину и покрытие контигов с самым высоким и самым низким покрытием.
Проаннотировать программой BLAST (на сайте NCBI) самый длинный контиг и контиги с максимальным и минимальным покрытием. В отчёте указать для каждого контига: банковскую аннотацию (организм и описание) лучшей находки, число выравниваний контига с этой находкой, выданных BLAST-ом, характеристики этих выравниваний (покрытие контига, процент идентичности).

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2018

Задание 14 для опоздавших

Ваша задача:

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2018

Задание 14 для опоздавших

Ваша задача:

Учебная страница курса биоинформатики,
год поступления 2018