Varyaaas
  • Главная
  • Обо мне
  • Семестры
      1 семестр (I курс) 2 семестр (I курс) 3 семестр (II курс)
  • ФББ МГУ

NGS. De-novo сборка генома

В этом практикуме мы попытаемся de-novo собрать геном. Для этого потренируемся на данных секвенирования эндосимбионтной бактерии гороховой тли Buchnera aphidicola. Чтения были скачаны с сайта EMBL

Подготовка прочтений к сборке включала две стадии триммирования: обрезку адаптеров и отбор по качеству и длине. Файл adapters.fasta получен объединением файлов адаптеров с kodomo.

java -jar /usr/share/java/trimmomatic.jar SE -threads 20 SRR4240361.fastq.gz trimadapt_SRR4240361.fastq.gz ILLUMINACLIP:adapters/adapters.fasta:2:7:7 2> trimadapt.err (лог-файл)

Адаптерами являлось 34532 (0.47%) последовательностей. Далее почиститим чтения по качеству с конца с порогом 20 и удалим последовательности короче 32, так как для сборки нужно, чтобы из прочтения можно было выделить хотя бы два 31-мера (слова длиной 31):

java -jar /usr/share/java/trimmomatic.jar SE -threads 20 trimadapt_SRR4240361.fastq.gz trim_SRR4240361.fastq.gz TRAILING:20 MINLEN:32 2> trim.err (лог-файл)

На этом этапе было удалено 403754 (5.58%) последовательностей. До очистки файл весил 193М, после удаления адаптеров - 192М, после полной обработки - 178М.

Для сборки используем пакет программ velvet (velveth и velvetg):
velveth velvet/ 31 -fastq.gz -short trim_SRR4240361.fastq.gz
Здесь velvet/ — директория для сборки, 31 — размер k-мера для построения графа, -short — указание на короткие непарные прочтения.

Далее воспользуемся программой velvetg для сборки генома:

velvetg velvet/

Проанализируем качество сборки. Из лог-файла узнаем N50 = 25683. . Найдем три самых длинных контига и их покрытие. Для этого откроем файл stats.txt в программе Excel и отсортируем по длине (см. таблицу 1):

Таблица 1. Характеристика самых длинных контигов

ID Длина Покрытие
6 49238 26,66
2 45555 26,45
34 43866 23,51

Все контиги с аномально большими/малыми покрытиями имееют длину меньше k (31), К сожалению, такие контиги не попадут в файл contigs.fa, т.к. в него попадают только контиги длиной больше или равной максимальной длине k-меров (31).

С помощью grep ">" contigs.fa | wc -l можем посмотреть, что в файле 209 таких последовательностей.

Анализ контигов с помощью megablast

Самый длинный контиг (ID 6) длиной 49238 картировался следующим образом:

Фрагмент 50-12790 выравнивается на участок генома с координатами 127825 - 140555. Хорошее выравнивание с Identity 75% характеризуется 3259 SNPs и 548 гэпами

Фрагмент 16429-23828 выравнивается на участок генома с координатами 144368-151796. Это выравнивание с Identity 78% характеризуется 1677 SNPs и 243 гэпами

Фрагмент 25809-33893 выравнивается на участок генома с координатами 153752-161738. Выравнивание с Identity 78% характеризуется 1813 SNPs и 264 гэпами

Фрагмент 34098-38958 выравнивается на участок генома с координатами 161898-166752. Identity 80%, 1003 SNPs, 112 гэпов

Фрагмент 38989-45432 выравнивается на участок генома с координатами 166750-173180. Выравнивание с Identity 76% содержит 1550 SNPs и 159 гэпов

По DotPlot'у можно заключить, что между участками контига 6, выравнивающимися на геном, происходило несколько делеций и активно шел мутационный процесс.




Рис. 1. Выравнивание контига 6 на участок хромосомы.(127,7 - 173Kb)


ID 2 (длина 45555 п.н.)

Контиг картировался 9 фрагментами. Координаты участков на хромосоме (в скобках указан Identity): 440755-440944 (89%), 441135-442817 (79%), 442877-445895 (80%), 449411-454069 (75%), 462496-467421 (77%), 467412-474667 (77%), 474844-480660 (74%), 480874-481545 (82%), 481997-485679 (77%)

Содержание гэпов составляет 2-4%

Прямая совпадений на дотплоте также имеет отрицательный наклон, что говорит о записи последовательности контига в обратном направлении. Можно заключить, что между 2-мя фрагментами произошла крупная делеция (координаты контига: 23 - 33kB, расстояние между гомологичными участками в геноме - 8427 нукл, а между фрагментами контига - 9891 нукл) и присутствует негомологичный участок.




Рис. 2. Выравнивание контига 2 на участок хромосомы.(440,7 - 482Kb)


ID 34 (длина 43866 п.н.)

Контиг картировался 7 фрагментами. Координаты участков на хромосоме (в скобках указан Identity): 253223-257546 (73%), 260224-263784 (77%), 266073-275551 (79%), 275566-283706 (76%), 283963-285070 (76%), 285200-286535 (76%), 288181-291560 (78%)

Содержание гэпов составляет 2-5%

Места разрывов на карте DotPlot - делеции




Рис. 2. Выравнивание контига 34 на участок хромосомы.(253 - 291,5Kb)