Главная | Семестры | Третий семестр |
Я три раза запустил программу trimmomatic, сначала удалив адаптеры (предварительно собрал в 1 файл), затем концы с качеством ниже 20 и последовательности длиной меньше 31. Размер распакованного файла составлял
1.179.775.440 байт.
После первого запуска размер стал 1.159.349.882 байта, из 10543839 ридов осталось 98,34%, а 174955 ридов удалены (видимо остатки адаптеров).
После второго запуска осталось 1.049.811.490 байт, удалено 76427 ридов.
Третий запуск уменьшил размер файла до 865.076.716 байт, оставив 8016437 ридов, удалив 2276020.
Сначала запускаем программу velveth:
velveth new 31 -fastq -short trim_13adtrml.fastq
Затем анализируем сборку:
velvetg new
Получаем: N50 сборки = 8600, при общей длине 655573, всего 358 контигов.
Номер контига | Длина | Покрытие |
40 | 16436 | 30.793624 |
34 | 18714 | 29.922678 |
56 | 19821 | 29.475859 |
Таблица 1. Три самых длинных контига.
Из аномальных контигов есть, например, контиг 256 длиной 1 и спокрытием 111576. 126 контигов имеют длину меньше 10. Контиги 305, 356, 358 имеют дину 1 и покрытие 1. Анализ проведен по файлу stats.txt.
ТРи самых длинных контига выравниваются на хрмосому Buchnera aphidicola (GenBank/EMBL AC — CP009253) с помощью megablast следующим образом:
Контиг 40 соответствует участкам хромосомы, в обратном направлении: 462469 по 474242, 464696 по 467421. 366 гэпов, 2772 различающихся позиций. См. Рисунок 1.
Контиг 34 соответствует участкам хромосомы: 17962 по 20171, 23067 по 26764, 14727 по 17919, 8599 по 11103, 20358 по 22183, 13994 по 14465.
В общей сложности на все выравнивания 370 гэпов, 2921 различающаяся позиция. См. Рисунок 2.
Контиг 56 соответсвтует участкам хромосомы: 500370 по 508806, 510438 по 514772, 496111 по 500325. Всего 582 гэпа, 3985 различий. См. Рисунок 3.
В итоге, контиг 40 ложится в обратном направлении, участков, выравнивающихся несколько раз нет.
Рисунок 1.
Рисунок 2.
Рисунок 3.