Сборка de novo.

Работа на кластре.

Для упрощения своей работы я написал скрипт, который можно посмотреть по ссылке - файл. Данный скрипт скачивает архив, отбирает адаптеры и запускает триммирование и программу velveth.

После работы программы были отсеяны сначала 41858 (0.51%) чтений и осталось 8212774 (99.49%), а потом еще отсеялось 297300 (3.62%) чтений и остались 7915474 (96.38%) чтений.

Значение N50 составляет 43070. Ниже представлены все log-файлы, из которых взята информация:

Ниже можно видеть информацию по контигам, которые использовались для анализа программой megablast.

ID	длина	покрытие	fasta
1	113474	33.52	contig1
2	41715	36.31	contig2
3	11607	31.55	contig3

Результаты работы с mgablast.

Как видно с графика, данный контиг расположен примерно с 450К и до 550К. Сама последовательность консервативная, но наблюдаются участки, в которых не получилось выровнять, скорее всего, это не является никакой делецией, а попросту ошибка при сборке.

Данный контиг расположен примерно с 40К и до 80К. Остальное же аналогично прошлому контигу: шум отсутствует, последовательность достаточно консервативна, но опять есть пустые области.

Последний контиг находится с 80К и до 90К. Прочее остается аналогичным прошлому, за исключением того, что "разрывы" становятся все больше.

В завершении хотелось бы сказать, что данные пустые области растут с уменьшением длины контигов, что прекрасно видно из графиков (длины контигов соответственно 110К, 40К и 10К). Это объясняется парой пунктов: для начала стоит вспомнить, что мы отсеивали часть чтений, что могло повлиять на эти контиги, а также из-за того, что мы по сути просто выкидывали некоторые чтения, итоговая сборка могла пройти с небольшими ошибками.