Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2013

Однонуклеотидные полиморфизмы, индели и сборка

Работа с результатами секвенирования требует много дискового пространства, которого в ваших домашних директориях недостаточно. Для выполнения заданий этого блока заведена специальная директория /P/y13/ngs на kodomo. Все большие файлы держите в своей поддиректории этой директории. После получения окончательных результатов обязательно перемещайте файлы с результатами в свою домашнюю директорию (на диск H). Директория /P/y13/ngs будет уничтожена вместе со всем содержимым 31 декабря 2014 г.

Через неделю выложите отчёт на сайте и пришлите ссылку для проверки.

1. Поиск однонуклеотидных полиморфизмов и инделей

С помощью программ samtools и bcftools получите список однонуклеотидных полиморфизмов (SNP) и инделей (то есть делеций и инсерций) для ридов, картированных на геномы хлоропласта и митохондрии из предыдущего задания. Укажите, какие команды использовали. Для каждого генома укажите, сколько найдено SNP, а сколько — инделей. Дайте ссылку на файл со списком.

Указание. Программы samtools и bcftools стоят на kodomo. Вам помогут опции "samtools mpileup -ugf" и "bcftools view -bvcg". Итоговый файл со списком будет иметь расширение vcf. Опции и формат описаны в руководстве.

2. Сборка хлоропласта и митохондрии

1. Соберите геномы хлоропласта и митохондрии из всех чтений своего набора (прошедших очистку) пакетом velvet. Укажите N50 и размер самого длинного контига получившейся сборки.

Указание. Пакет velvet стоит на kodomo и состоит из двух программ: velveth для выделения k-меров из чтений ("hashing") и velvetg для сборки по графу k-меров. Изучите руководство. Поэкспериментируйте с параметром hash_length (длина k-мера, то есть собственно число k), чтобы получить максимальное N50. Можно начать с длины k=35 и двигаться вверх и вниз (но опускаться ниже 15 и подниматься выше 97 в нашем случае не имеет смысла).

2. Для десяти самых длинных контигов составьте таблицу: номер контига, длина контига, что это за последовательность (геном хлоропласта, геном митохондрии, что-то еще?).

Указание. Инструмент выберите сами. Возможно, локальный бласт будет удобен.

3*. (дополнительно) SPAdes

Соберите геномы хлоропласта и митохондрии программой SPAdes. Укажите N50 и размер самого длинного контига получившейся сборки. Выберите десять самых длинных контигов и выясните, что это за последовательности.

Указание. Программа spades стоит на kodomo. Изучите руководство.