Скачивание чтений:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq.gz
Создание файла с адаптерами:
cp -r /mnt/scratch/NGS/adapters/ adapters
cat adapters/* > adapters.fasta
TrimmomaticSE -phred33 SRR4240359.fastq.gz trimmed1.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7
Команда отрезает остатки адаптеров. Было выкинуто 55872 (0.41%) чтений.
TrimmomaticSE -phred33 trimmed1.fastq.gz trimmed2.fastq.gz TRAILING:20 MINLEN:32
Уделение с конца нуклеотидов с качеством меньше 20 и удаление чтений длины меньшей, чем 32. Было выкинуто 1317986 (9.76%) чтений.
velveth Assem 31 -short -fastq.gz trimmed2.fastq.gz
Программа создает из чтений к-меры длины 31.
velvetg Assem/
Собирает к-меры в контиги. Получившиеся к-меры хранятся в файле contigs.fa. N50 = 70607.
cut -f1,2,6,7 Assem/stats.txt | sort -r -nk2 | head
ID | Длина | Покрытие |
11 | 125674 | 44.550949 |
1 | 108447 | 42.009184 |
14 | 71403 | 39.411551 |
Контиги с аномально высоким покрытием
ID | Длина | Покрытие |
98 | 47 | 139.489365 |
80 | 40 | 109.500000 |
126 | 51 | 91.982140 |
Контиги с низким покрытием
ID | Длина | Покрытие |
609 | 31 | 2.032258 |
231 | 63 | 2.190476 |
285 | 64 | 2.437500 |
Была прочитана комплементарная геномной последовательности цепь, координаты выравнивания - 600К-100К.
Прочитана прямая цепь генома, координаты выравнивания - 100К-200К.
Была прочитана комплементарная геномной последовательности цепь, координаты выравнивания - 200К-270К.