В данном практикуме было предложено собрать геном бактерии Buchnera aphidicola de novo. AC проекта, с которым я буду работать далее: SRR4240380.
Удаляем остатки адаптеров. На первом этапе чистки отброшено 98 174 (1.88%) последовательностей. На втором этапе 253785 (4.96%) оказались неудовлетворительного качества. До обработки файл весил 108 Мб, после первого этапа 106 Мб, а итоговый -- 99 Мб.
java -jar /usr/share/java/trimmomatic.jar SE -threads 20 -trimlog trim1.log ../${SRA}.fastq.gz ${SRA}_trimmed_1.fastq.gz ILLUMINACLIP:../adapters.fa:2:7:7
java -jar /usr/share/java/trimmomatic.jar SE -threads 20 -trimlog trim2.log ${SRA}_trimmed_1.fastq.gz ${SRA}_trimmed_2.fastq.gz TRAILING:${trailing} MINLEN:${minlen}
Запускаем сборку на основе k-меров с помощью программ velveth и velvetg. Параметр k соответствует длине чтений 31, -short
обозначает короткие непарные чтения.
velveth velvet/ 31 -fastq.gz -short ../trimming/${SRA}_trimmed_2.fastq.gz &> velveth.log
velvetg velvet/ &> velvetg.log
Для данной сборки параметр N50 = 12 042. С помощью команды sort -rn -k 2 stats.txt | head -n 3 | less
были найдены 3 самых длинных фрагмента. Также имелись фрагменты с выделяющимися значениями покрытий, например: >NODE_11_length_2106_cov_126.008545 (покрытие 126), >NODE_235_length_62_cov_2.419355 (покрытие 2.41).
ID фрагмента | Длина | Покрытие |
---|---|---|
3 | 25915 | 27.418676 |
20 | 23850 | 24.763816 |
23 | 23807 | 25.725921 |
Далее 3 самых длиных контига были выровнены относительно хромосомы изучаемой бактерии с помощью программы megablast
. Ее GenBank/EMBL AC — CP009253.
ID фрагмента | Координаты | Краткое описание |
---|---|---|
3 | 2004..11103, 613658..620926, 621055..627104 | Процент идентичности 78.4. Контиг лег на геном хорошо, небольшой гэп заметен лишь в районе 7000. Ориентация последовательности в банке и контига совпадает, разве что различаются их точки начала. |
20 | 236918..247596, 232358..236859, 229411..232057, 248967..252161 | Процент идентичности 75.17. Ориентация контига и последовательности из банка противоположные. Помимо небольших гэпов имеется довольно крупный в районе 7000. |
23 | 573092..582686, 584329..587055, 593743..594099 | Процент идентичности 73.43. Ориентация контига и последовательности из банка совпадают. Имеются два гэпа: один более маленький, в районе 10000 п.н., второй очень большой: 14-22 тыс.п.н. |
I don't know how to make footer properly. You may as well pretend you haven't seen this phrase!