FastQ | Анализ качеста чтений в виде html файла | fastqc SRR4240389.fastq |
Trimmomatic | Очистка чтений: удаление адаптеров | java –jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240358.fastq no_adapt.fastq ILLUMINACLIP:adapters.fasta:2:7:7 |
Trimmomatic | Очистка ридов и повторная проверка качества: TRAILING:20 - отрезает нуклеиновые кислоты с 3' конца с качеством ниже 20 и MINLEN:30 - удаляет риды короче 30 нк. | java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 no_adapt.fastq vlv.fastq TRAILING:20 MINLEN:30 |
velveth | Подготовка k-меров длины 29 | velveth kmers 29 -short -fastq vlv.fastq |
velvetg | Сборка генома на основе k-меров | velvetg kmers |
1. Подготовка чтений программой trimmomatic, 2.Velveth и 3.Velvetg.
Скачаем с ebi.ac.uk короткие чтения,
полученные по технологии Illumina из бактерии Buchnera aphidicola и разархивируем (gunzip -d SRR4240358.fastq.gz).
Удалим возможные остатки адаптеров и чтения с длиной менее 30 и качеством менее 20.
Размер исходного файла составил 1125 МБ, где было 10543839 чтений.
После применения программы Trimmomatic размер файла уменьшился до 876 МБ, а число чтений сократилось до 8580909.
Граф состоит из 702 вершин, N50 = 15362.
Самые длинные контиги:
Контиги с аномально большим или аномально малым покрытием:
Таблица с информацией о контигах: pr14_vlv.xlsx
4. Анализ
Сравним при помощи megablast с параметрами по умолчанию три самых длинных контига с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
Разрывы на картах локального сходства означают не полную целостность соответствия.
Карта локального сходства для контига с ID=9
Данный контиг лёг на прямую цепь хромосомы c 8 разрывами.
Карта локального сходства для контига с ID=6
Контиг инвертирован относительно последовательности хромосомы бактерии, присутствует 2 разрыва.
Карта локального сходства для контига с ID=7
Контиг инвертирован относительно последовательности хромосомы бактерии, присутствует 5 разрывов.
© Наумова Юлия, 2018