Сборка генома Buchnera aphidicola de novo

Данный практикум представляет собой процесс сборки и анализа генома бактерии Buchnera aphidicola по заданным ридам.

Скачивание ридов

Для работы предложены чтения SRR4240378, которые необходимо скачать в рабочую директорию.

Архив SRR4240378.fastq.gz был скачан с портала ena командой

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz

Подготовка ридов программой trimmomatic

Перед запуском trimmomatic необходимо удалить из ридов возможные остатки адаптеров. Это позволяет сделать первый запуск trimmomatic'a с параметром ILLUMINACLIP. Последующий запуск программы направлен на удаление нуклеотидов с качеством ниже 20 (TRAILING: 20) с минимальной длиной полученных ридов равной 32 нукл (MINLEN: 32).

cat /mnt/scratch/NGS/adapters/* >> adapters.fa #Объединение всех последовательностей адаптеров в 1 файл

java -jar /usr/share/java/trimmomatic.jar SE SRR4240378.fastq.gz -threads 5 no_adapter.fastq.gz -trimlog trim_adapter.log ILLUMINACLIP:adapters.fa:2:7:7 #Первый запуск trimmomatic - удаление адаптеров

java -jar /usr/share/java/trimmomatic.jar SE no_adapter.fastq.gz -threads 5 trimmed.fastq.gz -trimlog trim_lowqual.log TRAILING:20 MINLEN:32 #Второй запуск trimmomatic - удаление нуклеотидов низкого качества

Результаты запусков:
0) Размер файлов: 91Mb до очистки, 89Mb после удаления адаптеров, 84Mb после триммирования концов.
1) Input Reads: 4420587 Surviving: 4338744 (98.15%) Dropped: 81843 (1.85%)
2) Input Reads: 4338744 Surviving: 4154738 (95.76%) Dropped: 184006 (4.24%)
Видно, что риды были слабо загрязнены адаптерными последовательностями (меньше 2%), но их качество уже похуже (чуть больше 4%). В целом, предоставленные риды можно считать качественными и проводить с ними дальнейшие манипуляции.

Запуск программы velvet

На данном этапе предлагается воспользоваться программами velveth (manual) и velvetg (manual). Первая из них служит для создания k-меров указанной длины, по которым уже будет производиться сборка velvetg'ом.

velveth kmers_velv 31 -fastq.gz trimmed.fastq.gz -short #создает папку kmers_velv, где хранятся k-меры длины 31
velvetg kmers_velv &> assembly.log #Производит сборку по k-мерам, полученным velveth'ом и записывает основную информацию в log-файл

Ознакомиться с log-файлом можно по ссылке

В вышепредставленном log-файле содержится полезная информация о полученной сборке, нам же важнее N50: 7028 нукл. Помимо этого, velvetg создает в папке kmers_velv файлы stats.txt с информацией о полученных контигах и contigs.fa с их последовательностями.

ID Длина Покрытие Последовательность
8 36746 20.017199 contig8
57 19371 20.546642 contig57
15 16745 20.901762 contig15

Самые длинные контиги приведены в таблице выше, средняя длина контига оказалась равной 1781 нукл.
На самом деле, 240 узлов оказалось короче среднего в 5 раз. (57 узлов, вообще, имели длину 1) и часто характеризовались очень высокими покрытиями (у одного из однонуклеотидных узлов было покрытие 148170 - Node_129), очевидно, что это короткие последовательности, которые встречаются в большом количестве k-меров (148).
Аномальные покрытия:
Аномально низкие покрытия (от 5 до 1) чаще всего встречаются в узлах длиной меньше 100 (e.g. Node_166 длиной 64 имеет покрытие 2,84).

Анализ контигов с помощью megablast

Последовательности 3-х указанных в таблице контигов были забластованы на геном бактерии Buchnera aphidicola (GenBank: CP009253.1). Полученные результаты были использованы для описания выравниваний и совпадений. Приведенные картинки показывают DotPlot'ы контигов на участок генома, куда выравнивается этот контиг (с некоторым запасом по краям). Данные фрагменты генома были получены с помощью команды seqret.

Contig 8

Ознакомиться с выдачей можно по ссылке

Данный контиг выровнялся на геном 7-ю участками разной длины, опишем их по порядку:

Фрагмент 562 - 6737 выравнивается на участок генома с координатами 510441-516539 нукл. Хорошее выравнивание с Identity 79% характеризуется 1336 SNPs и 193 гэпами.

Фрагмент 8431 - 16876 выравнивается на участок генома с координатами 500370-508806 нукл. Это выравнивание с Identity 76% характеризуется 2101 SNPs и 345 гэпами.

Фрагмент 16992 - 21270 выравнивается на участок генома с координатами 496111-500325 нукл. Выравнивание с Identity 75% характеризуется 1069 SNPs и 156 гэпами.

Короткий фрагмент 22436 - 22554 выравнивается на участок генома с координатами 495033-495148 нукл. Такое короткое выравнивание имеет Identity 90%, 12 SNPs и 5 гэпов.

Фрагмент 22688 - 24064 выравнивается на участок генома с координатами 493487-494864 нукл. Это не особо длинное выравнивание с Identity 80% характеризуется 275 SNPs и 15 гэпами.

Фрагмент 29517 - 35594 выравнивается на участок генома с координатами 481997-488128 нукл. Выравнивание с Identity 74% содержит 1624 SNPs и 318 гэпов.

Короткий фрагмент 36065 - 36747 выравнивается на участок генома с координатами 480874-481548 нукл. Выравнивание с Identity 82% содержит 123 SNPs и 16 гэпов.

По DotPlot'у можно заключить, что между участками контига 8, выравнивающимися на геном, происходило несколько делеций и активно шел мутационный процесс. Более того, отрицательный наклон кривой говорит о том, что последовательность контига записана в обратном направлении.

Выравнивание контига 8 на участок хромосомы (475,8 - 519Kb)

Contig 57

Ознакомиться с выдачей можно по ссылке

Часть контига 57 выравнялась на геном 2-мя участками, описание выравниваний которых приведено ниже:

Короткий фрагмент 5348 - 8066 выравнивается на участок генома с координатами 587055-584329 нукл. Это хорошее выравнивание с Identity 76%, в котором можно выделить 677 SNPs и 110 гэпов.

Длинный фрагмент 9751 - 19341 выравнивается на участок генома с координатами 573092-582689 нукл. Выравнивание соотносится с коротким фрагментом. В данном случае Identity 73%, 2611 SNPs и 463 гэпа.

Из представленного DotPlot'a можно заключить, что между 2-мя фрагментами произошла крупная делеция (расстояние между гомологичными участками в геноме - 4366 нукл, а между фрагментами контига - 1685 нукл) и присутствует негомологичный участок. Прямая совпадений на дотплоте также имеет отрицательный наклон, что говорит о записи последовательности контига в обратном направлении.

Выравнивание контига 57 на участок хромосомы (572,8 - 586Kb)

Contig 15

Ознакомиться с выдачей можно по ссылке

Часть контига 15 с 6309 по 13708 позиции выравнялась на геном единственным участком (фрагмент генома: 144368-151796 нукл). Это хорошее попадание с Identity 78%, в нем можно выделить 1673 SNPs и 247 гэпов.

По представленному DotPlot'у заметно, что последовательность этого контига также как и предыдущие записана в обратном порядке, поэтому наклон кривой отрицателен.

Выравнивание контига 15 на участок хромосомы (144 - 152,5Kb)