Сборка de novo

~mashkovskayaav

0. Вначале со страницы https://www.ebi.ac.uk/ena/data/view/SRR4240388 был скачан архив SRR4240388.fastq.gz с чтениями, полученными по технологии Illumina.

Файл был распакован программой gunzip в рабочей директории.


1. Подготовка чтений программой Trimmomatic

Таблица 1 (описание команд)
Команда Операция Результат
cat /P/y16/term3/block3/adapters/*fa >> adapters.fa Создание файла, содержащего все адаптеры из файлов директории adapters файл adapters.fa
java -jar /nfs/srv/databases/ngs/suvorova/ trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240388.fastq SRR4240388_stepone.fastq ILLUMINACLIP:adapters.fa:2:7:7
Удаление всех возможных остатков адаптеров файл SRR4240388_stepone.fastq

java -jar /nfs/srv/databases/ngs/suvorova/ trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240388_stepone.fastq SRR4240388_steptwo.fastq TRAILING:20 MINLEN:30
Удаление плохих букв с начала чтений и удаление чтений длиной меньше 30 Файл SRR4240388_steptwo.fastq

• До обработки программой Trimomatic файл SRR4240388.fastq содержал 10833163 чтения, каждое длиной 39 нуклеотидов.

Рисунок 1; Файл SRR4240388.fastq, качество по каждой букве

• После удаления остатков адаптеров длины чтений стали варьироваться от 1 до 39 нуклеотидов; всего осталось 10830102 чтения.

Рисунок 2; SRR4240388_stepone.fastq, качество по каждой букве

• После удаления плохих концов чтений и чтений длиной менее 30 нуклеотидов осталось 7331210 чтений длиной 30-39 нуклеотидов.

Рисунок 3; SRR4240388_steptwo.fastq, качество по каждой букве

2. Создание k-меров программой Velveth и сборка программой Velvetg

Таблица 2
Команда Операция Результат
velveth newfile 29 -short -fastq SRR4240388_steptwo.fastq Подготовка k-меров длины k=29 по коротким непарным чтениям (short) директория newfile с набором файлов
velvetg newfile Сборка на основе k-меров директория newfile с набором текстовых файлов

Характеристика:

• N50 = 3245

• Первый по длине контиг: длина = 16373; покрытие = 49,32688

• Второй по длине контиг: длина = 14691; покрытие = 55,265264

• Третий по длине контиг: длина = 14095; покрытие = 41,448812

• Аномально большое покрытие: 595570 для контига №1212 длиной 1

• Минимальное покрытие: 1 для некоторого числа контигов, например №1258, №1266, №1272 и др.


3. Анализ Megablast


1) Контиг №43 длиной 16373

Рисунок 4, Dot матрица

Всего было построено 2 выравнивания. Их характеристика:

Выравнивание №1:

• Координаты в хромосоме: 9041-2004

• Expect value: 0.0

• Ident: 5597/7141(78%)

• Gaps: 214/7141(2%)

• Score(bits): 4436

• Направление в хромосоме: Отрицательное (-)


Выравнивание №2:

• Координаты в хромосоме: 627104-621055

• Expect value: 0.0

• Ident: 4678/6170(76%)

• Gaps: 240/6170(3%)

• Score(bits): 2907

• Направление в хромосоме: Отрицательное (-)

В итоге первое выравнивание захвативает примерно на 1000 нуклеотидов длины контига больше, чем второе (7030 в первом выравнивании и 6050 во втором выравнивании), также вес в битах первого выравнивания больше веса второго выравнивания на 1529. Поэтому первое выравние скорее всего отражает реальное расположение контига в хромосоме.


2) Контиг №27 длиной 14691

Рисунок 5, Dot матрица

Всего было построено 2 выравнивания. Их характеристика:

Выравнивание №1:

• Координаты в хромосоме: 161738-153752

• Expect value: 0.0

• Ident: 6347/8169(78%)

• Gaps: 266/8169(3%)

• Score(bits): 4747

• Направление в хромосоме: Отрицательное (-)

Выравнивание №2:

• Координаты в хромосоме: 151796-147305

• Expect value: 0.0

• Ident: 3668/4524(81%)

• Gaps: 63/4524(1%)

• Score(bits): 3554

• Направление в хромосоме: Отрицательное (-)

Первое выравнивание захвативает практически в два раза больше длины контига, чем второе выравнивание, поэтому скорее всего первое выравнивание отражает реальное расположение контига хромосоме.


3) Контиг №19 длиной 14095

Рисунок 6, Dot матрица

Всего было построено 2 выравнивания. Их характеристика:

Выравнивание №1:

• Координаты в хромосоме: 467412-474667

• Expect value: 0.0

• Ident: 5691/7388(77%)

• Gaps: 208/7388(2%)

• Score(bits): 4050

• Направление в хромосоме: Положительное (+)

Выравнивание №2:

• Координаты в хромосоме: 462496-467421

• Expect value: 0.0

• Ident: 3861/5015(77%)

• Gaps: 162/5015(3%)

• Score(bits): 2719

• Направление в хромосоме: Положительное (+)

На дотматрице можно заметить, что выравнивания расположени практически рядом, при этом в двух выравниваниях затронуты разные участки одного контига, которые в совокупности практически полностью его составляют. Возможно, в том образце, который был секвенирован, произошла перестановка внутри контига по сравнению с хромосомой в базе данных.


©Машковская Анна, 2018