Суздаленко, семестр 3

Практикум 15

Мой код доступа проекта по секвенированию бактерии Buchnera aphidicola был SRR4240379. Сначала удалим возможные остатки адаптеров

java -jar /usr/share/java/trimmomatic.jar SE SRR4240379.fastq.gz trimmed.fastq.gz -trimlog trim.log 
ILLUMINACLIP:adapters.fasta:2:7:7

1.76% процентов последовательностей чтений оказалось остатками адаптеров. Удалим с правых концов чтений нуклеотиды с качеством ниже 20, оставим только чтения длиной не меньше 32 нуклеотидов

java -jar /usr/share/java/trimmomatic.jar SE trimmed.fastq.gz trimmed2.fastq.gz -trimlog trim2.log 
TRAILING:20 MINLEN:32

4.07% чтений было удалено, размеры файлов до и после очистки 168259 и 159171 KB соответственно. velveth подготавливает k-меры (k=31) на основе исходного файла и создает папку с данными f1.

velveth f1 31 -short -fastq.gz trimmed2.fastq.gz

На f1 запускаем velvetg и осуществляем сборку на основе k-меров.

velvetg f1 &> velvet.log

N50 25646, длины трёх самых длинных контигов 49942, 49292, 33115 и их покрытия 35.907237, 34.772177, 36.259030 соответственно. Есть контиги с аномально низким покрытием длиной 31, например,узлы 312 и 353, содержащие в себе однонуклеотидные повторы.

Первый по длине контиг выравнивается на хромосому 5 фрагментами со следующими параметрами:
Координаты участка хромосомы Число однонуклеотидных различий Число гэпов
127825-140555 2715 552/13012(4%)
153752-161738 1552 270/8171(3%)
144368-151796 1426 247/7538(3%)
161898-166752 898 104/4910(2%)
166750-173180 1399 153/6514(2%)
Второй по длине контиг выравнивается на хромосому 10 фрагментами со следующими параметрами:
Координаты участка хромосомы Число однонуклеотидных различий Число гэпов
500370-508806 1750 351/8617(4%)
510438-516539 1150 187/6234(2%)
523105-528679 1109 207/5685(3%)
481997-488106 1309 308/6238(4%)
517766-521500 760 101/3783(2%)
496111-500325 915 154/4324(3%)
493487-494864 262 13/1384(0.9%)
480874-481545 102 20/686(2%)
528794-529211 42 26/425(6%)
495033-495148 7 5/120(4%)
Третий по длине контиг выравнивается на хромосому 4 фрагментами со следующими параметрами:
Координаты участка хромосомы Число однонуклеотидных различий Число гэпов
467412-474667 1489 208/7388(2%)
462496-467421 992 162/5015(3%)
474844-480660 1288 255/5974(4%)
451729-454069 488 55/2370(2%)