Даны одиночные (single-end) чтения генома Buchnera aphidicola штамма Tuc7, симбионта гороховой тли, длины 39 bp.
С помощью trimmomatic:
- удалим возможные остатки адаптеров;
- удалим с правых концов чтений нуклеотиды с качеством PHRED ниже 20;
- оставим только такие чтения, длина которых не меньше 32 нуклеотидов.
Сделаем это так:
TrimmomaticSE -threads 16 SRR4240379.fastq.gz trimmed_reads.fq.gz ILLUMINACLIP:adapters.fa:2:7:7 TRAILING:20 MINLEN:32
Исходно чтений: 7 400 155; Осталось после тримминга: 6 974 267 (94.24%); Удалено: 425 888 (5.76%).
Размер файла до очистки: 763 862 КВ
Размер файла после очистки: 718 297 КВ
Процент чтений, оказавшихся остатками адаптеров: 5.76%
Подготовим k-меры длины 31 из фильтрованых чтений:
velveth k_mers 31 -fastq -short trimmed_reads.fq
Теперь начнём сборку de-novo:
velvetg k_mers/
Сортировал файл с информацией о контигах в Excel.
Вот, что получилось:
N50 = 25 646.
3 самых длинных контига и их покрытия:
5) 49 912 bp, 35.907237;
6) 49 262 bp, 34.772177;
9) 33 085 bp, 36.259030.
Среди контигов встречаются те, покрытие которых выходит за рамки субъективного среднего. Таковы, например:
- Контиг 30, длина 2083 bp, покрытие 172,516083;
- Контиг 39, длина 609 bp, покрытие 177,170772.
Попробуем установить локализацию трёх самых длинных из получившихся контигов в геноме Buchnera aphidicola (CP009253.1) с помощью NCBI Megablast (ссылка).
Находка | Регион выравнивания в референсной хромосоме | Качество выравнивания (alignment score) в битах, в скобках - программное значение | E-value | Совпадающих позиций (шт. и в процентах от длины всего выравнивания) | Гэпов (шт. и в процентах от длины всего выравнивания | Направление (контига/референса). П - прямое относительно исходных данных, ОК - обратно-комплементарное |
---|---|---|---|---|---|---|
1 | 467412 - 474667 | 4050 (2193) | 0.0 | 5691/7388 (77%) | 208/7388 (2%) | П/П |
2 | 462496 - 467421 | 2719 (1472) | 0.0 | 3861/5015 (77%) | 162/5015 (3%) | П/П |
3 | 474844 - 480660 | 2248 (1217) | 0.0 | 4431/5974 (74%) | 255/5974 (4%) | П/П |
4 | 451729 - 454069 | 1317 (713) | 0.0 | 1827/2370 (77%) | 55/2370 (2%) | П/П |
Находка | Регион выравнивания в референсной хромосоме | Качество выравнивания (alignment score) в битах, в скобках - программное значение | E-value | Совпадающих позиций (шт. и в процентах от длины всего выравнивания) | Гэпов (шт. и в процентах от длины всего выравнивания | Направление (контига/референса). П - прямое относительно исходных данных, ОК - обратно-комплементарное |
---|---|---|---|---|---|---|
1 | 127825 - 140555 | 5421 (2935) | 0.0 | 9741/13008 (75%) | 544/13008 (4%) | П/П |
2 | 153752 - 161738 | 4747 (2570) | 0.0 | 6347/8169 (78%) | 266/8169 (3%) | П/П |
3 | 144368 - 151796 | 4423 (2395) | 0.0 | 5863/7536 (78%) | 243/7536 (3%) | П/П |
4 | 161898 - 166752 | 3421 (1852) | 0.0 | 3910/4912 (80%) | 108/4912 (2%) | П/П |
5 | 166750 - 173180 | 3290 (1781) | 0.0 | 4965/6517 (76%) | 159/6517 (2%) | П/П |
Находка | Регион выравнивания в референсной хромосоме | Качество выравнивания (alignment score) в битах, в скобках - программное значение | E-value | Совпадающих позиций (шт. и в процентах от длины всего выравнивания) | Гэпов (шт. и в процентах от длины всего выравнивания | Направление контига/референса. П - прямое относительно исходных данных, ОК - обратно-комплементарное |
---|---|---|---|---|---|---|
1 | 500370 - 508806 | 3949 (2138) | 0.0 | 6516/8617 (76%) | 351/8617 (4%) | П/П |
2 | 510438 - 516539 | 3932 (2129) | 0.0 | 4897/6234 (79%) | 187/6234 (2%) | П/П |
3 | 523105 - 528679 | 3016 (1633) | 0.0 | 4369/5685 (77%) | 207/5685 (3%) | П/П |
4 | 481997 - 488106 | 2278 (1233) | 0.0 | 4621/6238 (74%) | 308/6238 (4%) | П/П |
5 | 517766 - 521500 | 2122 (1149) | 0.0 | 2922/3783 (77%) | 101/3783 (2%) | П/П |
6 | 496111 - 500325 | 1921 (1040) | 0.0 | 3255/4324 (75%) | 154/4324 (3%) | П/П |
7 | 493487 - 494864 | 1020 (552) | 0.0 | 1109/1384 (80%) | 13/1384 (0%) | П/П |
8 | 480874 - 481545 | 573 (310) | 7e-163 | 564/686 (82%) | 20/686 (2%) | П/П |
9 | 528794 - 529211 | 385 (208) | 3e-106 | 357/425 (84%) | 26/425 (6%) | П/П |
10 | 495033 - 495148 | 150 (81) | 1e-35 | 108/120 (90%) | 5/120 (4%) | П/П |
Теперь в качестве эксперимента попробуем провести сборку? разбив чтения на k-меры длиной 27:
velveth 27 27 -fastq -short trimmed_reads.fq
velvetg 27
Сортировал файл с информацией о контигах в Excel.
N50 = 12 512.
3 самых длинных контига и их покрытия:
58 136 bp, 62.474267;
33 699 bp, 60.758450;
28 990 bp, 63.530700.
Значение N50 снизилось, хотя длина наибольшего контига стала больше. Всё-таки в данном случае лучше собирать геном с более длинными k-мерами.