Сборка генома de novo.

1. Очистка чтений.

Для удаления остатков адаптеров был создан файл со всеми последовательностями адаптеров - adap.fasta
Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240380.fastq SRR_out.fastq ILLUMINACLIP:adap.fasta:2:7:7
После этого из 5217318 чтений осталось 5119144. Получается, что 98174 ридов было удалено, что составляет 1,88% от изначального количества.

Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR_out.fastq SRR_out_trim.fastq TRAILING:20 MINLEN:30
Она удаляет "плохие"(с качеством ниже 20) буквы с концов чтений, оставляя только чтения длиной не менее 30.
Получили, что из 5119144 ридов осталось после чистки 4879709 ридов, а удалено было 239435 (4,68%)

2. Подготовка к-меров.

С помощь программы velveth подготовили k-меры длины k=29.
Команда: velveth velv 29 -short -fastq SRR_out_trim.fastq
(velv - название папки; 29 - длина к-мера; short - короткие и непарные чтения; fastq - формат)

3. Сборка на основе к-меров.


Команда: velvetg velv
Был построен граф со следующими параметрами:
  • N50: 18128
  • Три самые длинные контиги:
    1. ID: 9 Length: 57469 Coverage: 35,82
    2. ID: 3 Length: 43960 Coverage: 36,27
    3. ID: 8 Length: 33034 Coverage: 35,38
  • С анамально большим покрытием:(примеры)
    1. ID: 699 Length: 1 Coverage: 951542,00
    2. ID: 571 Length: 1 Coverage: 805,00
  • С анамально маленьким покрытием:(примеры)
    1. ID: 683 Length: 10 Coverage: 1,20
    2. ID: 235 Length: 14 Coverage: 1,64
    3. ID: 193 Length: 62 Coverage: 1,77

4. Анализ.


Сравнили программой megablast каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
  • ID: 3
    Покрытие: 68%
    E-value: 0.0
    Ident: 78%
    Контиг ложится кусками на "банковский" геном. Небольшой кусочек лежит в начале генома, а большая часть контига ложится на конец генома.
    Координаты кусков можно объединить и записать как: 2004 - 11103; 599832-627104

  • Кол-во гэпов(общее): 927
    Кол-во однонукл. различий: 6729
  • ID: 8
    Покрытие: 61%
    E-value: 0.0
    Ident: 77%
    Контиг ложится примерно на 2ую треть "банковского" генома.
    Координаты кусков можно объединить и записать как: 451729-454069; 462496-480660

  • Кол-во гэпов(общее): 680
    Кол-во однонукл. различий: 4937
  • ID: 9
    Покрытие: 61%
    E-value: 0.0
    Ident: 77%
    Контиг ложится на конец генома.
    Координаты кусков можно объединить и записать как: 501913 - 555905;

  • Кол-во гэпов(общее): 1482
    Кол-во однонукл. различий: 10347

Главная страница.

Страница второго курса.



© Гурылева Мария Вячеславовна 2016