Практикум 14. Сборка de novo
Номер проекта: SRR4240378
Анализ качества чтений до и после очистки
Всего было 4420587 чтений, их качество (из выдачи fastqc) показано на рисунке 1. Как ни странно, в выдаче fastq нет никаких адаптеров - возможно, конкретно эти он не распознал (рис. 2). После очистки от адаптеров осталось 4338744 (98,15%), удалено 81843 (1,85%) и повысилось качество (рис. 3). После очистки чтений trimmomatic - убраны нуклеотиды с качеством менее 20, минимальная длина для чтений 32 - осталось 4154738 (95,76%), удалено ещё 184006 (4,24%). Качество после показано на рисунке 4 - почти идеально.
Анализ контигов
Для k-мер длиной 31: N50=7028, 3 самых длинных контига это: 8 (36746), 57 (19371) и 15 (16745). Встречаются контиги с аномальным покрытием (у 295 покрытие 148170), но ни один из них не попал в итоговый файл, так как они имеют длину 1-5. Не учитывая этот выброс, среднее покрытие равно 54.16. Есть несколько контигов с покрытием 1 длины 1-2.
Для k-мер длиной 27: N50=14582, 3 самых длинных контига это: 10 (44640), 7 (34489) и 11 (30775). Как видно, длины контигов и, что важнее, N50 сильно выросли. Есть 3 контига длины 0 с покрытием inf, что не радует. Среднее покрытие, не учитывая их и аномально высокие (например, 411 с порытием 263042) равно 55.96.
Выравнивание в BLAST
Для всех трёх есть только одно возможное положение при BLAST на хромосому бактерии (AC: CP009253), выравнивания в обратном направлении. У 8 и 57 контигов отсутствует часть участков, которые есть в полном геноме, и наоборот - query cover, E-value, идентичность для всех трех контигов (8, 57, 15) соответственно: 73%, 0.0, 75.62%; 63%, 0.0, 73.43%; 44%, 0.0, 77.80%; рисунки 5-7: dot plot выравниваний.