Учебная страница курса биоинформатики,
год поступления 2013
Однонуклеотидные полиморфизмы, индели и сборка
Работа с результатами секвенирования требует много дискового пространства, которого в ваших домашних директориях недостаточно. Для выполнения заданий этого блока заведена специальная директория /P/y13/ngs на kodomo. Все большие файлы держите в своей поддиректории этой директории. После получения окончательных результатов обязательно перемещайте файлы с результатами в свою домашнюю директорию (на диск H). Директория /P/y13/ngs будет уничтожена вместе со всем содержимым 31 декабря 2014 г.
Через неделю выложите отчёт на сайте и пришлите ссылку для проверки.
1. Поиск однонуклеотидных полиморфизмов и инделей
С помощью программ samtools и bcftools получите список однонуклеотидных полиморфизмов (SNP) и инделей (то есть делеций и инсерций) для ридов, картированных на геномы хлоропласта и митохондрии из предыдущего задания. Укажите, какие команды использовали. Для каждого генома укажите, сколько найдено SNP, а сколько — инделей. Дайте ссылку на файл со списком.
Указание. Программы samtools и bcftools стоят на kodomo. Вам помогут опции "samtools mpileup -ugf" и "bcftools view -bvcg". Итоговый файл со списком будет иметь расширение vcf. Опции и формат описаны в руководстве.
2. Сборка хлоропласта и митохондрии
1. Соберите геномы хлоропласта и митохондрии из всех чтений своего набора (прошедших очистку) пакетом velvet. Укажите N50 и размер самого длинного контига получившейся сборки.
Указание. Пакет velvet стоит на kodomo и состоит из двух программ: velveth для выделения k-меров из чтений ("hashing") и velvetg для сборки по графу k-меров. Изучите руководство. Поэкспериментируйте с параметром hash_length (длина k-мера, то есть собственно число k), чтобы получить максимальное N50. Можно начать с длины k=35 и двигаться вверх и вниз (но опускаться ниже 15 и подниматься выше 97 в нашем случае не имеет смысла).
2. Для десяти самых длинных контигов составьте таблицу: номер контига, длина контига, что это за последовательность (геном хлоропласта, геном митохондрии, что-то еще?).
Указание. Инструмент выберите сами. Возможно, локальный бласт будет удобен.
3*. (дополнительно) SPAdes
Соберите геномы хлоропласта и митохондрии программой SPAdes. Укажите N50 и размер самого длинного контига получившейся сборки. Выберите десять самых длинных контигов и выясните, что это за последовательности.
Указание. Программа spades стоит на kodomo. Изучите руководство.