Нуклеотидные банки данных
Untitled Document.md

Все команды для удобства собраны в sh скрипт: run.sh

  1. Для обработки был взят файл chr15_trim.fastq, полученный в практикуме 13 после очистки с помощью trimmotanic. Были собраны все прошедшие очистку контиги без использования референса. Сначала с помощью комманды velveth были выделены k-меры.

Команда:

velveth chr15 31 -short -fastq chr15_trim.fastq

31 - это длина k-мера.

Затем надо провести сборку контигов. Сборка контигов происходит в директории chr15.

velvetg chr15 2>&1 | tee chr15/out.txt

(протокол был выведен в out.txt вместо stdout)

Набор контигов лежит в chr15/contigs.fa.

На k = 31:

Final graph has 297 nodes and n50 of 187, max 652, total 26275, using 0/4946 reads

На k = 25:

Final graph has 343 nodes and n50 of 200, max 658, total 28013, using 0/4946 reads

На k = 18:

Final graph has 436 nodes and n50 of 186, max 464, total 29854, using 0/4946 reads

Как можно наблюдать, количесво N50, так и максимальная длина значительно изменяется.

  1. Далее программой blastn (алгоритм megablast) были сравнены получившиеся контиги с последовательностью хромосомы.

Сначала была создана база данных:

makeblastdb -in chr15.fasta -dbtype nucl -out chr15.db

Затем был произведен поиск всех контигов в этой базе данных.

blastn -query chr15/contigs.fa -db chr15.db -outfmt 6 -out blast.csv

Далее командой

cut -f 1 blast.csv | sort | uniq -c | sort -g > сount.txt

Были отсортированы все первые поля.

Всего было найдено 229 контигов, из них 219 уникальные.

Было найдено большое количество разрывов, также найдены перекрытия.

Пример перекрытия 58830639 - 58830610 и разрыва 58830610 - 58830737:

NODE_47_length_344_cov_12.223837 chr15 100.00 374 0 0 1 374 58830266 58830639 0.0 691 NODE_48_length_31_cov_39.258064 chr15 100.00 61 0 0 1 61 58830610 58830670 2e-25 113 NODE_51_length_31_cov_1.000000 chr15 98.36 61 1 0 1 61 58830670 58830610 1e-23 108 NODE_54_length_31_cov_22.967741 chr15 98.36 61 1 0 1 61 58830737 58830677 1e-23 108

Перекрывания могут быть обьяснены тем, что программа не может обьединить все в один контиг из-за того, что, например, цепи комплементарные, либо тем, что последовательности двух нуклеотидов неидентичны.

Разрывы могу быть обьяснены тем, что хромосома была не полностью секвенирована.