Сборка генома de novo

  1. Подготовка чтений
  2. Скачаем чтения полученные в проекте по секвенированию бактерии Buchnera aphidicola:
        wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240380/SRR4240380.fastq.gz
    Результат - SRR4240380 Создание файла с адаптерами:
        cat /mnt/scratch/NGS/adapters/*.fa >> adapters.fasta
    Результат - adapters.fasta Удаление адаптеров:
        java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240380.fastq.gz SRR4240380_trim.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7
    1.88% последовательностей чтений оказалось остатками адаптеров. Фильтрация чтений по качеству (удаление с правых концов чтений нуклеотидов с качеством ниже 20, удаление чтений длины меньше 32 нуклеотидов.)
        java -jar /usr/share/java/trimmomatic.jar SE SRR4240380_trim.fastq.gz filt.fastq.gz TRAILING:20 MINLEN:32
    Ещё 4.96% (253785 нуклеотида) последовательностей чтений было удалено. Размеры файлов: 107,23 МБ до подготовки; 98,35 МБ - после.
  3. velveth
  4.     velveth kmers 31 -fastq.gz filt.fastq.gz -short
  5. Сборка на основе k-меров
  6.     velvetg kmers
    N50 = 12042. В файле stats.txt можно найти информацию по длинам контигов. 3 самых длинных:
       
    ID  Длина Покрытие
    3   25915 27.418676
    20  23850 24.763816
    23  23807 25.725921
        
    Контиги с аномально большим и малым покрытием:
    ID  Длина Покрытие
    269 0     inf
    84  1     700650.0
    ...
    364 1     1.0
    401 2     1.0
        
    Аномальные покрытия характерны для очень коротких контигов.
  7. Анализ
  8. Результаты megablast:
          ID  Max Score   Total Score   Query Cover   E-value   Per. Ident
          3   5760        13627         86%           0.0       78.40%
          20  4769        10820         88%           0.0       75.17%
          23  3253        4804          53%           0.0       73.43%
        
    Рис.1 Выравнивание контига (ID 3)
    Контиг (ID 3) ложится на участки хромосомы с координатами 613658..620926 (Gaps:190(2%)); 621055 to 627104 (Gaps:240(3%)) и 2004..11103 (Gaps:252(2%)). Данный контиг попал на участок, где была разрезана хромосома при определении последовательности.
    Рис.2 Выравнивание контига (ID 20)
    Контиг (ID 20) ложится на участки 236918..24759 (Gaps:391(3%)), 232358..236859 (Gaps:130(2%)), 229411..232057 (Gaps:71(2%)), 248967..252161(Gaps:94(2%)).
    Рис.3 Выравнивание контига (ID 23)
    Контиг (ID 23) ложится на участки 573092..582686 (Gaps:461(4%)), 584329..587055 (Gaps:108(3%)), 593743..594099 (Gaps:4(1%))