Подготовление k-меров длины k=31. -short: короткие непарные чтения.velveth31: название выходной директории.
velvetg velveth31
Используя файлы директории velveth31, полученной предыдущей командой, происходит сборка k-меров.
Подготовка чтений программой trimmomatic
Удаление адаптеров. По завершению работы trimmomatic для обрезания адаптеров была получена следующая информация: Input Reads: 10543839 Surviving: 10368883 (98,34%) Dropped: 174956 (1,66%). Т.е 1,66% последовательностей ридов оказались адаптерами.
Чистка чтений. С концов чтений были удалены нуклеотиды с качеством ниже 20 и остались только чтения длиной не меньше 32 нуклеотидов. trimmomatic рассказала, что: Input Reads: 10368883 Surviving: 8016435 (77,31%) Dropped: 2352448 (22,69%)
.
Таблица 2. Сравнение fastq файлов до и после очиcтки
Название файла
Количество чтений
Длина чтений
Размер файла, мб
SRR4240358.fastq (исходные риды)
10543839
39
1125
trimSRR.fastq (очищенные от адаптеров)
10368883
1-39
1106
finaltrimSRR.fastq
8016435
32-39
825
Результаты анализа fastQC до использования Trimmomatic (SRR4240358.fastq)
Результаты анализа после обрезания ридов с использованием Trimmomatic (trimSRR.fastq)
Результаты анализа после использования Trimmomatic с обрезанием концов (finaltrimSRR.fastq)
Сборка
С помощью команд velveth и velvetg была осуществлена сборка k-меров. Выдача velvetg (также последняя строчка файла Log):
Final graph has 364 nodes and n50 of 8600, max 19821, total 655702, using 0/8016435 reads
Длина и покрытие самых длинных контигов представлены в таблице 3. Медиана покрытия оказалась равна около 26,5%. Кроме того, было много контигов
с "аномальными" значениями покрытия (3 из них приведены в табл.4).
Таблица 3. Описание 3х самых длинных полученных контигов
ID
Длина
Покрытие
57
19821
29,475859
34
18714
29,922678
41
16436
30,793624
Таблица 4. Описание полученных контигов с аномальным покрытием
ID
Длина
Покрытие
191
3
1
171
109
4,642202
262
1
111576
Анализ
Было произведено выравнивание трех самых длинных контигов и хромосомы Buchnera aphidicola (GenBank/EMBL AC — CP009253)
с помощью megablast. Были получены карты локального сходства и проанализированы выравнивания.
Таблица 5. Анализ выравниваний
ID контига
Длина
Количество выравниваний
Координаты в геноме
Max score
Query cover
Identities
Strand
Gaps
57
19821
3
496111-514772
3949
86%
75.62%
+/+
1, 3,4%
34
18714
6
8599-26764
2278
74%
85.41%
+/+
1-3%
41
16436
2
462496-474242
3703
71%
76.76%
+/-
2, 3%
Карта локального сходства CP009253 и контига ID 57
Карта локального сходства CP009253 и контига ID 34
Карта локального сходства CP009253 и контига ID 41
У всех трех контигов довольно близкие значения гэпов в выравниваниях, покрытия и идентичности. По моему мнению, лучше
остальных лег третий по длине контиг (с ID 41), т.к. он выровнился всего двумя кусками, которые вроде бы наложились друг на друга на 9 нуклеотидов (467.412-474.242 и 462.496-467.421),
у него идентичность составляет 77%, покрытие 71%. Конечно, у контига самой большой длины (ID 57), оказалось наибольшее покрытие (86%), но он
лег 3 кусками, между двумя из которых довольно большое расстояние (1632). Контиг 34, по сравнению с остальными рассмотренными, лег 6 маленькими кусочками,
однако имеет низкое число гэпов в каждом из выравниваний, высокую идентичность (85.41%) и хорошее покрытие 74%.