На вход дано 7238089 чтений, удалено 403754 (5.58%)
Размер файлов: исходный 193M, с удаленными адаптерами 192M, после удаления чтений с качеством меньше 20 с правых
концов и чтений с длиной меньше 32 - 178M.
Подготовка k-меров
Команда:
velveth velv 31 -short -fastq.gz reads2.fastq.gz
Cборка на основе k-меров
Команда:
velvetg velv
Количество контигов с N50 - 25683 (выдача stdout). С помощью команды находим длины самых длинных контигов
cut -f2 stats.txt | sort -h | tail -3
ID
Длина
покрытие
6
49238
26.66
2
45555
26,45
34
43866
23,51
Аномальное покрытие можно посмотреть с помощью команд
cut -f6 stats.txt | sort -h
cut -f6 stats.txt | sort -h -r
Наибольшие - 500, 561, 865, 212829, маленькие - от 1.
Анализ полученных результатов
Три самых больших контига были картированы на хромосому Buchnera aphidicola (GenBank/EMBL AC — CP009253)
Полученный результат:
Участок
Идентичные нуклеотиды, %
Гэпы, %
127825..140555
75
4
153752..161738
78
3
144368..151796
78
3
161898..166752
80
2
166750..173180
76
2
Соответственно, можно сказать о присутствии делеций в контигах.
Участок
Идентичные нуклеотиды, %
Гэпы, %
467412..474667
77
2
462496..467421
77
3
442877..445895
80
1
474844..480660
74
4
449411..454069
75
3
481997..485679
77
3
441135..442817
79
1
480874..481545
82
2
440755..440944
89
4
Так как наклон отрицательный, контиг был перевернут, также присутствуют крупные делеции.