Сборка de novo

На странице проекта я скачала fastq по коду доступа SRR4240360 - файл в виде архива .gz и перенесла его в рабочую директорию (/nfs/srv/databases/ngs/lady_mari/), где распаковала программой gunzip.

Использованная команда: gunzip SRR4240360.fastq.gz

Был получен файл с чтениями SRR4240360.fastq.

Подготовка чтений программой trimmomatic

С помощью программы Trimmomatic была проведена очистка чтений, а именно: удаление остатков адаптеров и плохих букв с концов.

Для начала все адаптеры для Illumina были собраны в единый файл adapters.fasta.

команда функция выходной файл
ls > V собрали в один файл все названия файлов с адаптерами V
seqret @V -out adapters.fasta все последовательности адаптеров собраны в единой файл adapters.fasta

Затем были использованы следующие команды:

команда функция выходной файл
java -jar /nfs/srv/databases/ ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240360.fastq SRR42 40360_noad.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Удаление остатков адаптеров SRR4240360_noad.fastq

Из выдачи программы: Input Reads: 8254632 Surviving: 8212773 (99,49%) Dropped: 41859 (0,51%). Т.е. Было отброшено 41859 чтения из 8254632 исходных, размер файла уменьшился с 832 Мбайт до 828 Мбайт.

команда функция выходной файл
java -jar /nfs/srv/databases/ ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240360_noad.fastq SRR4240360_trim.fastq TRAILING:20 MINLEN:30 Обрезка с концов чтений нуклеотидов с качеством ниже 20 и отбор чтений длины не менее 30 SRR4240357_trim.fastq

Из выдачи программы:Input Reads: 8212773 Surviving: 7935084 (96,62%) Dropped: 277689 (3,38%) Т.е. Было отброшено 277689 чтения из 8212773 исходных, размер файла уменьшился с 828 Мбайт до 798 Мбайт.

Подготовка k-меров

Подготовка k-меров была произведена с помощью программы velveth. Она предназначена для создания набора данных, которые далее могут обрабатываться программой velvetg.

В нашем случае было необходимо подготовить k-меры длины 29 для коротких непарных чтений (-short) из файла в формате fastq (-fastq). Выходные файлы записывались в папку velveth.

Использованная команда: velveth velveth 29 -fastq -short SRR4240360_trim.fastq

Cборка на основе k-меров

Cборка на основе k-меров была произведена программой velvetg с использованием данных, полученных на предыдущем этапе.

Использованная команда: velvetg velveth

В постороенном программой графе оказалось 1506 вершин. N50 = 67095. максимальная длина контига - 94956. Два следующих по размеру контига имеют длины 70305 и 70300

Длины и покрытия самых больших контигов

ID Длина Покрытие Последовательность
1 94956 43.679915 id_1.fasta
5 70305 49.350530 id_5.fasta
9 70300 42.008890 id_9.fasta

Среднее арифметическое - 162,9112815

Медиана - 7,87

Максимальные значения покрытий -187344; 848; 575

Минимальные значения покрытий - 1

ID Длина Покрытие
690 1 187344
1298 1 848
1120 1 575

Анализ

С помощью алгоритма megablastn было проведено сравнение каждого из трех самых длинных контигов с хромосомой Buchnera aphidicola (CP009253).

Результаты работы megablastn можно увидеть в таблице ниже(координаты в хромосоме брались так, что началом была минимальная координата из всех выравниваний кусков контига, а концом - максимальная).

ID Координаты в геноме Max score Total score Query cover E-value Ident Alignment length Gaps
1 402668 - 495148 4047 32384 60% 0.0 77% 9221 208(2%)
5 2004 - 627104 8517 34072 71% 0.0 83% 9633 130(1%)
9 202390 - 271926 4748 30562 79% 0.0 75% 10884 390(3%)