Все команды для удобства собраны в sh скрипт: run.sh
- Для обработки был взят файл chr15_trim.fastq, полученный в практикуме 13 после очистки с помощью trimmotanic. Были собраны все прошедшие очистку контиги без использования референса. Сначала с помощью комманды velveth были выделены k-меры.
Команда:
velveth chr15 31 -short -fastq chr15_trim.fastq
31 - это длина k-мера.
Затем надо провести сборку контигов. Сборка контигов происходит в директории chr15.
velvetg chr15 2>&1 | tee chr15/out.txt
(протокол был выведен в out.txt вместо stdout)
Набор контигов лежит в chr15/contigs.fa.
На k = 31:
Final graph has 297 nodes and n50 of 187, max 652, total 26275, using 0/4946 reads
На k = 25:
Final graph has 343 nodes and n50 of 200, max 658, total 28013, using 0/4946 reads
На k = 18:
Final graph has 436 nodes and n50 of 186, max 464, total 29854, using 0/4946 reads
Как можно наблюдать, количесво N50, так и максимальная длина значительно изменяется.
- Далее программой blastn (алгоритм megablast) были сравнены получившиеся контиги с последовательностью хромосомы.
Сначала была создана база данных:
makeblastdb -in chr15.fasta -dbtype nucl -out chr15.db
Затем был произведен поиск всех контигов в этой базе данных.
blastn -query chr15/contigs.fa -db chr15.db -outfmt 6 -out blast.csv
Далее командой
cut -f 1 blast.csv | sort | uniq -c | sort -g > сount.txt
Были отсортированы все первые поля.
Всего было найдено 229 контигов, из них 219 уникальные.
Было найдено большое количество разрывов, также найдены перекрытия.
Пример перекрытия 58830639 - 58830610 и разрыва 58830610 - 58830737:
NODE_47_length_344_cov_12.223837 chr15 100.00 374 0 0 1 374 58830266 58830639 0.0 691 NODE_48_length_31_cov_39.258064 chr15 100.00 61 0 0 1 61 58830610 58830670 2e-25 113 NODE_51_length_31_cov_1.000000 chr15 98.36 61 1 0 1 61 58830670 58830610 1e-23 108 NODE_54_length_31_cov_22.967741 chr15 98.36 61 1 0 1 61 58830737 58830677 1e-23 108
Перекрывания могут быть обьяснены тем, что программа не может обьединить все в один контиг из-за того, что, например, цепи комплементарные, либо тем, что последовательности двух нуклеотидов неидентичны.
Разрывы могу быть обьяснены тем, что хромосома была не полностью секвенирована.