Десятый практикум

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz
TrimmomaticSE -threads 15 -phred33 SRR4240378.fastq.gz trimmed.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7

Изначально было 4420587 чтений, выжило 4338744 чтений (98.15%), отпало 81843 (1.85%).

TrimmomaticSE -threads 15 -phred33 trimmed.fastq.gz trimmed_final.fasta.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 TRAILING:20 MINLEN:32

Из 4338744 чтений выжило 4154738 чтений (95.76%), отпало 184006 чтений (4.24%)

Исходно файл весил 91Мб, после первого триммирования 89Мб, после второго - 84 мб

velveth velvet 31 -short -fastq trimmed_final.fasta.gz

Подготовление k-меров длины 31

velvetg velvet

Сборка генома. N50 7028.

3 самых больших контига: 36756 н.(1), 19371 н.(2), 16745 н.(3). Их покрытия, соответсвенно, 20.01799, 20.546642, 20.901762.

Есть контиги, чье покрытие меньше 5, и при этом их длинна меньше 200 нуклеотидов.

Рисунок 1. Результат выравнивания megablast
Рисунок 2. Результат выравнивания megablast
Рисунок 3. Результат выравнивания megablast

Первое выравнивание: 7 разных вариантов от 480874 до 516539, c разрывами, 351 гэп, 6516 идентичностей, второе выравние: от 144368 до 151796, 243 гэпа, 5863 идентичностей, контиг от 6309 до 13708, все остальное не выравнялось, третье выравние: от 573092 до 582686, 461 гэп, 7212 идентичностей, контиг выравнялся от 8066 до 19341, с разрывом.