Практикум 14. Сборка de novo
Задание
Для выполнения практикума использовался .fastq-файл проекта SRR4240356. Основные команды, использовавшиеся при выполнении заданий, указаны в таблице 1. В первую очередь из последовательностей были удалены адаптеры - порядка 2% всех последовательностей (в том числе видно исходя рис. 1, 2, 3). Качество последовательностей при этом практически не изменилось. Заметно выросло оно только после очистки (рис. 4, 5, 6).
Команда | Назначение |
fastqc filename.fastq | Анализ качества последовательностей |
ava -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240356.fastq noadapters.fastq ILLUMINACLIP:adapters.fa:2:7:7 | Удаление адаптеров |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 noadapters.fastq trimmed.fastq TRAILING:20 MINLEN:32 | Чистка последовательностей (порог длины - 32, качества - 20) |
velveth velveth_31 31 -short -fastq trimmed.fastq | Подготовка k-меров; k = 31 |
velvetg velveth_31 | Сборка контигов на базе k-меров |
Исходя из данных stats.txt, самыми длинными контигами оказались 8 (len = 111962; рис. 7), 6 (len = 107488; рис. 8) и 10 (len = 80939; рис. 9). Рассмотрим выравнивания контигов с хромосомой Buchnera aphidicola (CP009253). Изображения карт локального сходства я получить не смогла, потому что BLAST в нескольких разных браузерах после множества запусков выдавал мне одну и ту же карту для 3го контига:
Постараюсь исправить, как только ситуация изменится.
Покрытие данным контигом генома составляет 13%. Некоторые гэпы в выравнивании выглядят как буквы нижнего регистра (нередко совпадающие с таковыми в геноме). Судя по всему, это участки низкой сложности, отсеянные самим BLAST. Число гэпов: 545 (2%) Выравнивание контига попадает в следующую область хромосомы: [528794:550219]
Покрытие 6го контига составляет 12%. Он лег на геном более "фрагментарно", чем предыдущий; также есть крупные гэпы. Всего гэпов 363 (3%) Координаты на хромосоме: [266073:275551]
10 контиг покрывает участок генома на 8%. Также имеются крупные гэпы, но само покрытие состоит всего из 7 фрагментов. Число гэпов: 544 (4%) Координаты на хромосоме: [127825:140555].