Практикум 15.

Файл с адаптерами был создан с помощью команды:

seqret "/mnt/scratch/NGS/adapters/*" "fasta::all_adapters.fasta”

Затем с помощью trimmomatic было удалено 153091 чтений. Т.е. 2.04% последовательностей оказалось остатками адаптеров:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356.fastq.gz without_ad_SRR4240356.fastq.gz ILLUMINACLIP:all_adapters.fasta:2:7:7

После этого с помощью команды

java -jar /usr/share/java/trimmomatic.jar SE -phred33 without_ad_SRR4240356.fastq.gz SRR4240356_trimmed.fastq.gz MINLEN:32 TRAILING:20

с правых концов чтений были удалены нуклеотиды с качеством ниже 20, и оставлены только такие чтения, длина которых не меньше 32 нуклеотидов.

Т.е было удалено еще 82991 чтений (что составляет 1.13% от очищенных от адаптеров ридов)

В ходе этих шагов размер файла поменялся с 167M на 164М (после удаления адптеров), а затем достиг 159M после триммирования правых концов последовательностей.

Программа velveth была запущена, чтобы сформировать директорию Assembly_SRR4240356) с k-мерами длиной 31:

velveth Assembly_SRR4240356 31 -short -fastq.gz SRR4240356_trimmed.fastq.gz

Сборка была осуществлена командой velvetg:

velvetg Assembly_SRR4240356

Полученная сборка имеет параметр n50 = 65554

Информация о длине и покрытии трех самых длинных контигов:

ID lgth short1_cov
8 111 962,00 38,67
6 107 488,00 34,18
10 80 939,00 37,53

Аномально большое покрытие.

Исходя из файла stats.txt:

среднее покрытие - 1016,08, тогда как медианное значение покрытия = 10. Значит среди сборки есть контиги с аномально-большим покрытием.

Контиги с самым большим покрытием согласно файлу stats.txt:

id 62, длина 1, покрытие 267767 ; id, 124 длина, 1 покрытие 1136; id 41, длина 26, покрытие 453,423077 - отсутствуют среди контигов т.к. меньше размера k-mer.

И затем уже идут контиги “нормальной” длины:

id-27, длина-282, покрытие-458,553191

название последовательности в фаста-файле: NODE_27_length_282_cov_458.553192

id - 17 длина - 950, покрытие - 447,572632

название последовательности в фаста-файле :NODE_17_length_950_cov_447.572632

Анализ

C помощью мегабласта сравним каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).

Названия последовательностей в файле с контигами:

NODE_8_length_111962_cov_38.666664 NODE_6_length_107488_cov_34.180264 NODE_10_length_80939_cov_37.530758

Результат картирования с помощью megablast:
NODE_8_length_111962_cov_38.666664
Фрагмент генома Identities Gaps Snp
451729 to 454069 1827/2370(77%) 55/2370(2%) 488
462496 to 467421 3861/5015(77%) 162/5015(3%) 992
467412 to 474667 5691/7388(77%) 208/7388(2%) 1489
474844 to 480660 4431/5974(74%) 255/5974(4%) 1188
480874 to 481545 564/686(82%) 20/686(2%) 102
481997 to 488106 4621/6238(74%) 308/6238(4%) 1309
493487 to 494864 1109/1384(80%) 13/1384(0%) 262
495033 to 495148 108/120(90%) 5/120(4%) 7
Таб №1. Информация о картировании контига длиной 80939 на геном.

NODE_6_length_107488_cov_34.180264
Фрагмент генома Identities Gaps Snp
220869 to 223720 2359/2861(82%) 19/2861(0%) 483
224057 to 228137 3216/4178(77%) 163/4178(3%) 799
228944 to 232057 2496/3166(79%) 97/3166(3%) 573
232358 to 236859 3466/4581(76%) 130/4581(2%) 985
236918 to 247596 8182/10884(75%) 390/10884(3%) 2312
248967 to 252161 2527/3246(78%) 94/3246(2%) 625
253244 to 257546 3229/4399(73%) 192/4399(4%) 978
260224 to 263784 2794/3622(77%) 111/3622(3%) 717
266073 to 275551 7609/9661(79%) 363/9661(3%) 1689
275566 to 283706 6376/8396(76%) 421/8396(5%) 1599
283963 to 285070 864/1132(76%) 46/1132(4%) 222
285200 to 286535 1027/1349(76%) 27/1349(2%) 295
288181 to 291560 2653/3422(78%) 98/3422(2%) 671
294227 to 295755 1242/1535(81%) 14/1535(0%) 279
295935 to 303252 5696/7429(77%) 186/7429(2%) 1547
307878 to 312179 3358/4367(77%) 120/4367(2%) 889
312679 to 315982 2581/3351(77%) 89/3351(2%) 681
318826 to 323043 3179/4303(74%) 174/4303(4%) 950
Таб №2. Информация о картировании контига длиной 107488 на геном.

NODE_10_length_80939_cov_37.530758
Фрагмент генома Identities Gaps Snp
126623 to 127815 1004/1199(84%) 11/1199(0%) 184
127825 to 140555 9741/13008(75%) 544/13008(4%) 2723
144368 to 151796 5863/7536(78%) 243/7536(3%) 1430
153752 to 161738 6346/8169(78%) 266/8169(3%) 1557
161898 to 166752 3910/4912(80%) 108/4912(2%) 894
166750 to 173180 4965/6517(76%) 159/6517(2%) 1393
179654 to 180620 822/967(85%) 822/967(85%) 144
181712 to 185328 2806/3692(76%) 112/3692(3%) 774
187938 to 192665 3843/4801(80%) 99/4801(2%) 859
192777 to 193984 983/1209(81%) 4/1209(0%) 222
194042 to 195400 1121/1368(82%) 13/1368(0%) 234
Таб №3. Информация о картировании контига длиной 111962 на геном.