Файл с адаптерами был создан с помощью команды:
seqret "/mnt/scratch/NGS/adapters/*" "fasta::all_adapters.fasta”
Затем с помощью trimmomatic было удалено 153091 чтений. Т.е. 2.04% последовательностей оказалось остатками адаптеров:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356.fastq.gz without_ad_SRR4240356.fastq.gz ILLUMINACLIP:all_adapters.fasta:2:7:7
После этого с помощью команды
java -jar /usr/share/java/trimmomatic.jar SE -phred33 without_ad_SRR4240356.fastq.gz SRR4240356_trimmed.fastq.gz MINLEN:32 TRAILING:20
с правых концов чтений были удалены нуклеотиды с качеством ниже 20, и оставлены только такие чтения, длина которых не меньше 32 нуклеотидов.
Т.е было удалено еще 82991 чтений (что составляет 1.13% от очищенных от адаптеров ридов)
В ходе этих шагов размер файла поменялся с 167M на 164М (после удаления адптеров), а затем достиг 159M после триммирования правых концов последовательностей.
Программа velveth была запущена, чтобы сформировать директорию Assembly_SRR4240356) с k-мерами длиной 31:
velveth Assembly_SRR4240356 31 -short -fastq.gz SRR4240356_trimmed.fastq.gz
Сборка была осуществлена командой velvetg:
velvetg Assembly_SRR4240356
Полученная сборка имеет параметр n50 = 65554
ID | lgth | short1_cov |
---|---|---|
8 | 111 962,00 | 38,67 |
6 | 107 488,00 | 34,18 |
10 | 80 939,00 | 37,53 |
Исходя из файла stats.txt:
среднее покрытие - 1016,08, тогда как медианное значение покрытия = 10. Значит среди сборки есть контиги с аномально-большим покрытием.
Контиги с самым большим покрытием согласно файлу stats.txt:
id 62, длина 1, покрытие 267767 ; id, 124 длина, 1 покрытие 1136; id 41, длина 26, покрытие 453,423077 - отсутствуют среди контигов т.к. меньше размера k-mer.
И затем уже идут контиги “нормальной” длины:
id-27, длина-282, покрытие-458,553191
название последовательности в фаста-файле: NODE_27_length_282_cov_458.553192
id - 17 длина - 950, покрытие - 447,572632
название последовательности в фаста-файле :NODE_17_length_950_cov_447.572632
C помощью мегабласта сравним каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
Названия последовательностей в файле с контигами:
NODE_8_length_111962_cov_38.666664
NODE_6_length_107488_cov_34.180264
NODE_10_length_80939_cov_37.530758
NODE_8_length_111962_cov_38.666664 | |||
---|---|---|---|
Фрагмент генома | Identities | Gaps | Snp |
451729 to 454069 | 1827/2370(77%) | 55/2370(2%) | 488 |
462496 to 467421 | 3861/5015(77%) | 162/5015(3%) | 992 |
467412 to 474667 | 5691/7388(77%) | 208/7388(2%) | 1489 |
474844 to 480660 | 4431/5974(74%) | 255/5974(4%) | 1188 |
480874 to 481545 | 564/686(82%) | 20/686(2%) | 102 |
481997 to 488106 | 4621/6238(74%) | 308/6238(4%) | 1309 |
493487 to 494864 | 1109/1384(80%) | 13/1384(0%) | 262 |
495033 to 495148 | 108/120(90%) | 5/120(4%) | 7 |
NODE_6_length_107488_cov_34.180264 | |||
---|---|---|---|
Фрагмент генома | Identities | Gaps | Snp |
220869 to 223720 | 2359/2861(82%) | 19/2861(0%) | 483 |
224057 to 228137 | 3216/4178(77%) | 163/4178(3%) | 799 |
228944 to 232057 | 2496/3166(79%) | 97/3166(3%) | 573 |
232358 to 236859 | 3466/4581(76%) | 130/4581(2%) | 985 |
236918 to 247596 | 8182/10884(75%) | 390/10884(3%) | 2312 |
248967 to 252161 | 2527/3246(78%) | 94/3246(2%) | 625 |
253244 to 257546 | 3229/4399(73%) | 192/4399(4%) | 978 |
260224 to 263784 | 2794/3622(77%) | 111/3622(3%) | 717 |
266073 to 275551 | 7609/9661(79%) | 363/9661(3%) | 1689 |
275566 to 283706 | 6376/8396(76%) | 421/8396(5%) | 1599 |
283963 to 285070 | 864/1132(76%) | 46/1132(4%) | 222 |
285200 to 286535 | 1027/1349(76%) | 27/1349(2%) | 295 |
288181 to 291560 | 2653/3422(78%) | 98/3422(2%) | 671 |
294227 to 295755 | 1242/1535(81%) | 14/1535(0%) | 279 |
295935 to 303252 | 5696/7429(77%) | 186/7429(2%) | 1547 |
307878 to 312179 | 3358/4367(77%) | 120/4367(2%) | 889 |
312679 to 315982 | 2581/3351(77%) | 89/3351(2%) | 681 |
318826 to 323043 | 3179/4303(74%) | 174/4303(4%) | 950 |
NODE_10_length_80939_cov_37.530758 | |||
---|---|---|---|
Фрагмент генома | Identities | Gaps | Snp |
126623 to 127815 | 1004/1199(84%) | 11/1199(0%) | 184 |
127825 to 140555 | 9741/13008(75%) | 544/13008(4%) | 2723 |
144368 to 151796 | 5863/7536(78%) | 243/7536(3%) | 1430 |
153752 to 161738 | 6346/8169(78%) | 266/8169(3%) | 1557 |
161898 to 166752 | 3910/4912(80%) | 108/4912(2%) | 894 |
166750 to 173180 | 4965/6517(76%) | 159/6517(2%) | 1393 |
179654 to 180620 | 822/967(85%) | 822/967(85%) | 144 |
181712 to 185328 | 2806/3692(76%) | 112/3692(3%) | 774 |
187938 to 192665 | 3843/4801(80%) | 99/4801(2%) | 859 |
192777 to 193984 | 983/1209(81%) | 4/1209(0%) | 222 |
194042 to 195400 | 1121/1368(82%) | 13/1368(0%) | 234 |