Kuznetsov Ilya (prak9)

Работа со сборкой de novo

В первую очередь, соберем файл с последовательностями адаптеров, чтобы удалить их из последовательности файла.

cat /mnt/scratch/NGS/adapters/* >adapters

Далее проведём триммирование чтений:

TrimmomaticSE -phred33 SRR4240379.fastq.gz SRR4240379_clean.fastq.gz ILLUMINACLIP:adapters:2:7:7

Прежде рассмотрим выдачу файла: Input Reads: 7400155 Surviving: 7269852 (98.24%) Dropped: 130303 (1.76%). Таким образом 1.76% чтений оказались с частями адаптеров. Следующим этапом удалим нуклеотиды с плохим качеством (менее 20), и чтения с неудовлетворяющей нас длиной (менее 32).

TrimmomaticSE -phred33 SRR4240379_clean.fastq.gz clea_trim.fasta.gz TRAILING:20 MINLEN:32

Выдача файла:Input Reads: 7269852 Surviving: 6974267 (95.93%) Dropped: 295585 (4.07%). В результате удалено еще 295585 чтений (4.07% от оставшегося числа).

Размеры файлов, после использованных программ: SRR4240379.fastq.gz (174Mb); SRR4240379_clean.fastq.gz (172 Mb); clea_trim.fasta.gz (162 Mb).

Подготовка 31-меров

Подготавливаем необходимые k-меры:

velveth Assem 31 -short -fastq clea_trim.fasta.gz

В конце на выдаче получаем такие данные:Final graph has 440 nodes and n50 of 25646, max 49912, total 664650, using 0/6974267 reads. Для себя отмечаем, что N50 = 25646. Чтобы определить какие значения выбиваются из общего порядка, найдем медиану. Определив количество контигов, нахожу медиану и ее значения (>NODE 194 length 45 cov 16.555555)

Сборка на основе k-меров

Наиболее длинные

Покритие превышающее более чем в 5 раз медиану

Покритие более чем в 5 раз меньше медианы

Построение Dot Plot контигов

Для построения Dot Plot выделили последовательности контигов, выравнивание воспроизводилось относительно хромосомфы Buchnera aphidicola (GenBank/EMBL AC — CP009253).

Пятый контиг(выравнивание 450k-480k, per ident=77,03%)

Шестой контиг(выравнивание 130k-180k, per ident=74,88%)

Девятый контиг(выравнивание 480k-530k, per ident=75,62%)