Практикум 14

Получение и обработка чтений

Для выполнения данного практикума был выбран код доступа SRR4240356.

Загрузка чтений:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/006/SRR4240356/SRR4240356.fastq.gz

Обьединяем адаптеры из директории /mnt/scratch/NGS/adapters:

cat /mnt/scratch/NGS/adapters/*.fa > adapters.fa

Удаляем остатки адаптеров с помощью программы trimmomatic:

TrimmomaticSE -phred33 SRR4240356.fastq.gz SRR4240356_ost.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7

Выдача программы:

 Input Reads: 7511529 Surviving: 7358438 (97.96%) Dropped: 153091 (2.04%)
        TrimmomaticSE: Completed successfully

В результате работы программы было удалено 2.04% адаптеров.Также новый файл стал весить 777308708, вес изначвльно файла - 793999866.

C правых концов чтений были удалены нуклеотиды с качеством ниже 20, а также были оставлены только те чтения, у которых длина не меньше 32:

 TrimmomaticSE -phred33 SRR4240356_trash.fastq.gz SRR4240356_2.fastq.gz TRAILING:20 MINLEN:32

Выдача программы:

Input Reads: 7358438 Surviving: 7053346 (95.85%) Dropped: 305092 (4.15%)
            TrimmomaticSE: Completed successfully

В результате работы программы было удалено 4.15% адаптеров. Теперь размер файла стал еще меньше - 744045190.

Подготовка k-меров

Подготовка k-меров длины k=31 осуществлялась при помощи команды:

velveth velveth 31 -short -fastq.gz SRR4240356_2.fastq.gz

Сборка на основе k-меров

Далее была применена программа для сборки на основе k-меров:

velvetg velveth

Выдача программы:

Final graph has 286 nodes and n50 of 65554, max 111962, total 659837, using 0/7053346 reads

N50 = 65554, Max = 111962.

Были найдены 3 контига с наибольшей длинной и покрытием следующей командой:

less contigs.fa | grep '>'| tr '_' '\t'| sort -k4 -n -r |head -3

Самые длинные контиги это: 8 (длина 111962, покрытие 38.660198), 6 (длина 107488, покрытие 34.174030), 10 (длина 80939, покрытие 37.524174).

Контиги с аномально большим покрытием были найдены помощью команды:

 less contigs.fa | grep '>'| tr '_' '\t'| sort -k6 -n|tail -3

Контиги с аномально большим покрытием это: 14 (длина 934 , покрытие 444.608124), 17 (длина 950, покрытие 447.494751), 27 (длина 282, покрытие 458.429077).

Контиги с аномально маленьким покрытием были найдены с помощью команды:

less contigs.fa | grep '>'| tr '_' '\t'| sort -k6 -n |head -3

Контиги с аномально маленькимм покрытием это: 123 (длина 91 , покрытие 2.362637), 74 (длина 31, покрытие 3.064516), 27 (длина 78, покрытие 3.666667).

BLAST

С помощью программы megablast на сайте NCBI, были сделаны выравнивания каждого из 3 самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).

Рис. 1. Выравнивание с контигом 6.

Контиг 6 того же типа, что и цепь. Ложится на участок 220869-323043 на хромосоме.

Рис. 2. Выравнивание с контигом 8.

Контиг 8 того же типа, что и цепь. Ложится он соответственно на участок 451729-555905.

Рис. 3. Выравнивание с контигом 10.

Контиг 10 комплементарен цепи. Контиг 10 соответствует участку 126623-195400.