0. Вначале со страницы https://www.ebi.ac.uk/ena/data/view/SRR4240388 был скачан архив SRR4240388.fastq.gz с чтениями, полученными по технологии Illumina.
Файл был распакован программой gunzip в рабочей директории.
1. Подготовка чтений программой Trimmomatic
Таблица 1 (описание команд)Команда | Операция | Результат |
cat /P/y16/term3/block3/adapters/*fa >> adapters.fa | Создание файла, содержащего все адаптеры из файлов директории adapters | файл adapters.fa |
java -jar /nfs/srv/databases/ngs/suvorova/ trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240388.fastq SRR4240388_stepone.fastq ILLUMINACLIP:adapters.fa:2:7:7 |
Удаление всех возможных остатков адаптеров | файл SRR4240388_stepone.fastq |
java -jar /nfs/srv/databases/ngs/suvorova/ trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240388_stepone.fastq SRR4240388_steptwo.fastq TRAILING:20 MINLEN:30 |
Удаление плохих букв с начала чтений и удаление чтений длиной меньше 30 | Файл SRR4240388_steptwo.fastq |
• До обработки программой Trimomatic файл SRR4240388.fastq содержал 10833163 чтения, каждое длиной 39 нуклеотидов.
• После удаления остатков адаптеров длины чтений стали варьироваться от 1 до 39 нуклеотидов; всего осталось 10830102 чтения.
• После удаления плохих концов чтений и чтений длиной менее 30 нуклеотидов осталось 7331210 чтений длиной 30-39 нуклеотидов.
2. Создание k-меров программой Velveth и сборка программой Velvetg
Таблица 2Команда | Операция | Результат |
velveth newfile 29 -short -fastq SRR4240388_steptwo.fastq | Подготовка k-меров длины k=29 по коротким непарным чтениям (short) | директория newfile с набором файлов |
velvetg newfile | Сборка на основе k-меров | директория newfile с набором текстовых файлов |
Характеристика:
• N50 = 3245
• Первый по длине контиг: длина = 16373; покрытие = 49,32688
• Второй по длине контиг: длина = 14691; покрытие = 55,265264
• Третий по длине контиг: длина = 14095; покрытие = 41,448812
• Аномально большое покрытие: 595570 для контига №1212 длиной 1
• Минимальное покрытие: 1 для некоторого числа контигов, например №1258, №1266, №1272 и др.
3. Анализ Megablast
1) Контиг №43 длиной 16373
Рисунок 4, Dot матрица
Всего было построено 2 выравнивания. Их характеристика:
Выравнивание №1:
• Координаты в хромосоме: 9041-2004
• Expect value: 0.0
• Ident: 5597/7141(78%)
• Gaps: 214/7141(2%)
• Score(bits): 4436
• Направление в хромосоме: Отрицательное (-)
Выравнивание №2:
• Координаты в хромосоме: 627104-621055
• Expect value: 0.0
• Ident: 4678/6170(76%)
• Gaps: 240/6170(3%)
• Score(bits): 2907
• Направление в хромосоме: Отрицательное (-)
В итоге первое выравнивание захвативает примерно на 1000 нуклеотидов длины контига больше, чем второе (7030 в первом выравнивании и 6050 во втором выравнивании), также вес в битах первого выравнивания больше веса второго выравнивания на 1529. Поэтому первое выравние скорее всего отражает реальное расположение контига в хромосоме.
2) Контиг №27 длиной 14691
Рисунок 5, Dot матрица
Всего было построено 2 выравнивания. Их характеристика:
Выравнивание №1:
• Координаты в хромосоме: 161738-153752
• Expect value: 0.0
• Ident: 6347/8169(78%)
• Gaps: 266/8169(3%)
• Score(bits): 4747
• Направление в хромосоме: Отрицательное (-)
Выравнивание №2:
• Координаты в хромосоме: 151796-147305
• Expect value: 0.0
• Ident: 3668/4524(81%)
• Gaps: 63/4524(1%)
• Score(bits): 3554
• Направление в хромосоме: Отрицательное (-)
Первое выравнивание захвативает практически в два раза больше длины контига, чем второе выравнивание, поэтому скорее всего первое выравнивание отражает реальное расположение контига хромосоме.
3) Контиг №19 длиной 14095
Рисунок 6, Dot матрица
Всего было построено 2 выравнивания. Их характеристика:
Выравнивание №1:
• Координаты в хромосоме: 467412-474667
• Expect value: 0.0
• Ident: 5691/7388(77%)
• Gaps: 208/7388(2%)
• Score(bits): 4050
• Направление в хромосоме: Положительное (+)
Выравнивание №2:
• Координаты в хромосоме: 462496-467421
• Expect value: 0.0
• Ident: 3861/5015(77%)
• Gaps: 162/5015(3%)
• Score(bits): 2719
• Направление в хромосоме: Положительное (+)
На дотматрице можно заметить, что выравнивания расположени практически рядом, при этом в двух выравниваниях затронуты разные участки одного контига, которые в совокупности практически полностью его составляют. Возможно, в том образце, который был секвенирован, произошла перестановка внутри контига по сравнению с хромосомой в базе данных.
©Машковская Анна, 2018