Сборка генома de novo

  1. Подготовка чтений
  2. 1. Скачаем чтения:

        wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240380/SRR4240380.fastq.gz
    Получаем - SRR4240380

    2. Создание файла с адаптерами:

        cat /mnt/scratch/NGS/adapters/*.fa >> adapters.fasta -   adapters.fasta

    3. Удаление адаптеров:

        java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240380.fastq.gz SRR4240380_trim.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 -  SRR4240380_trim.fastq.gz
    1.88% - остаткти адаптеров

    4. Фильтрация качества чтений (удаление с правых концов чтений нуклеотидов с качеством ниже 20 и чтений длины меньше 32 нуклеотидов.)

        java -jar /usr/share/java/trimmomatic.jar SE SRR4240380_trim.fastq.gz filt.fastq.gz TRAILING:20 MINLEN:32 filt.fastq.gz
    Ещё 4.96% (253785 нуклеотида) последовательностей чтений было удалено. Размеры файлов: 107,23 МБ до подготовки; 98,35 МБ - после.
  3. velveth
  4.     velveth kmers 31 -fastq.gz filt.fastq.gz -short
  5. Сборка на основе k-меров
  6.     velvetg kmers
    N50 = 12042.

    В файле stats.txt можно найти информацию по длинам контигов. 3 самых длинных:

       
    ID  Длина Покрытие
    3   25915 27.418676
    20  23850 24.763816
    23  23807 25.725921
        

    Контиги с аномально большим и малым покрытием:

    ID  Длина Покрытие
    269 0     inf
    84  1     700650.0
    ...
    364 1     1.0
    401 2     1.0
        

    Аномальные покрытия характерны для очень коротких контигов.

  7. Анализ
  8. Результаты megablast:

          ID  Max Score   Total Score   Query Cover   E-value   Per. Ident
          3   5760        13627         86%           0.0       78.40%
          20  4769        10820         88%           0.0       75.17%
          23  3253        4804          53%           0.0       73.43%
        
    Рис.1 Выравнивание контига (ID 3)
    Контиг (ID_3). Координаты: 613658..620926 (Gaps:190(2%)); 621055 to 627104 (Gaps:240(3%)) и 2004..11103 (Gaps:252(2%)).Это участок, где была разрезана хромосома при определении последовательности.
    Рис.2 Выравнивание контига (ID 20)
    Контиг (ID_20). Координаты 236918..24759 (Gaps:391(3%)), 232358..236859 (Gaps:130(2%)), 229411..232057 (Gaps:71(2%)), 248967..252161(Gaps:94(2%)).
    Рис.3 Выравнивание контига (ID 23)
    Контиг (ID_23). Координаты 573092..582686 (Gaps:461(4%)), 584329..587055 (Gaps:108(3%)), 593743..594099 (Gaps:4(1%))