Сборка генома de novo.
1. Очистка чтений.
Для удаления остатков адаптеров был создан файл со всеми последовательностями адаптеров - adap.fasta
Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240380.fastq SRR_out.fastq ILLUMINACLIP:adap.fasta:2:7:7
После этого из 5217318 чтений осталось 5119144. Получается, что 98174 ридов было удалено, что составляет 1,88% от изначального количества.
Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR_out.fastq SRR_out_trim.fastq TRAILING:20 MINLEN:30
Она удаляет "плохие"(с качеством ниже 20) буквы с концов чтений, оставляя только чтения длиной не менее 30.
Получили, что из 5119144 ридов осталось после чистки 4879709 ридов, а удалено было 239435 (4,68%)
2. Подготовка к-меров.
С помощь программы velveth подготовили k-меры длины k=29.
Команда: velveth velv 29 -short -fastq SRR_out_trim.fastq
(velv - название папки; 29 - длина к-мера; short - короткие и непарные чтения; fastq - формат)
3. Сборка на основе к-меров.
Команда: velvetg velv
Был построен граф со следующими параметрами:
- N50: 18128
- Три самые длинные контиги:
1. ID: 9 Length: 57469 Coverage: 35,82
2. ID: 3 Length: 43960 Coverage: 36,27
3. ID: 8 Length: 33034 Coverage: 35,38
- С анамально большим покрытием:(примеры)
1. ID: 699 Length: 1 Coverage: 951542,00
2. ID: 571 Length: 1 Coverage: 805,00
- С анамально маленьким покрытием:(примеры)
1. ID: 683 Length: 10 Coverage: 1,20
2. ID: 235 Length: 14 Coverage: 1,64
3. ID: 193 Length: 62 Coverage: 1,77
4. Анализ.
Сравнили программой megablast каждый из трёх самых длинных контигов с
хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
- ID: 3
Покрытие: 68%
E-value: 0.0
Ident: 78%
Контиг ложится кусками на "банковский" геном. Небольшой кусочек лежит в начале генома, а большая часть контига ложится на конец генома.
Координаты кусков можно объединить и записать как: 2004 - 11103; 599832-627104
Кол-во гэпов(общее): 927
Кол-во однонукл. различий: 6729
- ID: 8
Покрытие: 61%
E-value: 0.0
Ident: 77%
Контиг ложится примерно на 2ую треть "банковского" генома.
Координаты кусков можно объединить и записать как: 451729-454069; 462496-480660
Кол-во гэпов(общее): 680
Кол-во однонукл. различий: 4937
- ID: 9
Покрытие: 61%
E-value: 0.0
Ident: 77%
Контиг ложится на конец генома.
Координаты кусков можно объединить и записать как: 501913 - 555905;
Кол-во гэпов(общее): 1482
Кол-во однонукл. различий: 10347