Практикум 14. Сборка de novo

Задание

Для выполнения практикума использовался .fastq-файл проекта SRR4240356. Основные команды, использовавшиеся при выполнении заданий, указаны в таблице 1. В первую очередь из последовательностей были удалены адаптеры - порядка 2% всех последовательностей (в том числе видно исходя рис. 1, 2, 3). Качество последовательностей при этом практически не изменилось. Заметно выросло оно только после очистки (рис. 4, 5, 6).

1

1

1

Рисунок 1, 2, 3. Общая информация о качестве ридов; 1 - исходные, 2 - после удаления адаптеров, 3 - после чистки.

1

1

1

Рисунок 4, 5, 6. "Per base"-информация о качестве ридов; 1 - исходные, 2 - после удаления адаптеров, 3 - после чистки.
Команда Назначение
fastqc filename.fastq
Анализ качества последовательностей
ava -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240356.fastq noadapters.fastq ILLUMINACLIP:adapters.fa:2:7:7
Удаление адаптеров
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 noadapters.fastq trimmed.fastq TRAILING:20 MINLEN:32
 Чистка последовательностей (порог длины - 32, качества - 20)
velveth velveth_31 31 -short -fastq trimmed.fastq
Подготовка k-меров; k = 31
velvetg velveth_31
Сборка контигов на базе k-меров
Таблица 1. Команды, использовавшиеся для выполнения практикума

Исходя из данных stats.txt, самыми длинными контигами оказались 8 (len = 111962; рис. 7), 6 (len = 107488; рис. 8) и 10 (len = 80939; рис. 9). Рассмотрим выравнивания контигов с хромосомой Buchnera aphidicola (CP009253). Изображения карт локального сходства я получить не смогла, потому что BLAST в нескольких разных браузерах после множества запусков выдавал мне одну и ту же карту для 3го контига:

1

Дополнительный рисунок. Забагованная карта локального сходства. На карте видно прямое соответствие контига геному с несколькими крупными делециями.

Постараюсь исправить, как только ситуация изменится.

1

Рисунок 7. Выравнивание 8го контига с хромосомой.

Покрытие данным контигом генома составляет 13%. Некоторые гэпы в выравнивании выглядят как буквы нижнего регистра (нередко совпадающие с таковыми в геноме). Судя по всему, это участки низкой сложности, отсеянные самим BLAST. Число гэпов: 545 (2%) Выравнивание контига попадает в следующую область хромосомы: [528794:550219]

1

Рисунок 8. Выравнивание 6го контига с хромосомой.

Покрытие 6го контига составляет 12%. Он лег на геном более "фрагментарно", чем предыдущий; также есть крупные гэпы. Всего гэпов 363 (3%) Координаты на хромосоме: [266073:275551]

1

Рисунок 9. Выравнивание 10го контига с хромосомой.

10 контиг покрывает участок генома на 8%. Также имеются крупные гэпы, но само покрытие состоит всего из 7 фрагментов. Число гэпов: 544 (4%) Координаты на хромосоме: [127825:140555].

1

Рисунок 10. Общее покрытие хромосомы контигами.