java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240380.fastq.gz SRR4240380_trim.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7
1.88% последовательностей чтений оказалось остатками адаптеров.
Фильтрация чтений по качеству (удаление с правых концов чтений нуклеотидов с качеством ниже 20, удаление чтений длины меньше 32 нуклеотидов.)
java -jar /usr/share/java/trimmomatic.jar SE SRR4240380_trim.fastq.gz filt.fastq.gz TRAILING:20 MINLEN:32
Ещё 4.96% (253785 нуклеотида) последовательностей чтений было удалено. Размеры файлов: 107,23 МБ до подготовки; 98,35 МБ - после.
velveth
velveth kmers 31 -fastq.gz filt.fastq.gz -short
Сборка на основе k-меров
velvetg kmers
N50 = 12042. В файле stats.txt можно найти информацию по длинам контигов. 3 самых длинных:
ID Длина Покрытие
3 25915 27.418676
20 23850 24.763816
23 23807 25.725921
Контиги с аномально большим и малым покрытием:
ID Длина Покрытие
269 0 inf
84 1 700650.0
...
364 1 1.0
401 2 1.0
Аномальные покрытия характерны для очень коротких контигов.
Анализ
Результаты megablast:
ID Max Score Total Score Query Cover E-value Per. Ident
3 5760 13627 86% 0.0 78.40%
20 4769 10820 88% 0.0 75.17%
23 3253 4804 53% 0.0 73.43%
Рис.1 Выравнивание контига (ID 3)
Контиг (ID 3) ложится на участки хромосомы с координатами 613658..620926 (Gaps:190(2%)); 621055 to 627104 (Gaps:240(3%)) и 2004..11103 (Gaps:252(2%)). Данный контиг попал на участок, где была разрезана хромосома при определении последовательности.
Рис.2 Выравнивание контига (ID 20)
Контиг (ID 20) ложится на участки 236918..24759 (Gaps:391(3%)), 232358..236859 (Gaps:130(2%)), 229411..232057 (Gaps:71(2%)), 248967..252161(Gaps:94(2%)).
Рис.3 Выравнивание контига (ID 23)
Контиг (ID 23) ложится на участки 573092..582686 (Gaps:461(4%)), 584329..587055 (Gaps:108(3%)), 593743..594099 (Gaps:4(1%))