Сборка de novo

Сборка контигов

Команда Функция
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240356.fastq SRR4240356noadapters.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Удаляет возможные адаптеры с ридов из файла SRR4240356.fastq, выход с ридами без адаптеров направляется в SRR4240356noadapters.fastq; последовательности адаптеров лежат в файле adapters.fasta.
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240356noadapters.fastq SRR4240356edited.fastq TRAILING:20 MINLEN:30 Отрезает с конца каждого рида в файле SRR4240356noadapters.fastq нуклеотиды с качеством ниже 20 и оставляет риды длиной не менее 30 нуклеотидов; выходные данные записывает в SRR4240356edited.fastq.

В итоге из 7358438 входных ридов было оставлено 7075381 ридов (96,15%) и выкинуто 283057 (3,85%); размер файла SRR4240356noadapters.fastq (до очистки) - 741 М, SRR4240356edited.fastq (после очистки) - 712 М.

Команда Функция
velveth ./ 29 -fastq -short SRR4240356edited.fastq Создает в текущей директории k-меры длины 29 из коротких непарных ридов из файла SRR4240356edited.fastq.
velvetg ./ На вход принимает файлы, которые создала velveth; в текущей директории собирает контиги из k-меров.

N50 для получившихся контигов - 46003.

Самые длинные контиги
ID контига Длина контига Покрытие
7 115468 52.223586
20 106076 45.974914
8 75082 54.512946

Контиги с аномально большим/маленьким покрытием
ID контига Длина контига Покрытие
2 1 621.000000
26 173 569.387283
109 3 1.666667

Выравнивание контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253)

Контиг 7

Координаты хромосомы, соответствующие контигу: 478095-587055. Число выравниваний: 17. По карте видно, что выравнивания легли на обратную цепь. Характеристика всех выравниваний, полученная с помощью команды infoalign: info7.txt.

Контиг 8

Buchnera aphidicola - бактерия, с кольцевой ДНК, поэтому координаты хромосомы, соответствующие контигу выглядят так: 2004-44693 и 599832-627104. Число выравниваний: 13. Как и в предыдущем контиге, выравнивания легли на обратную цепь. Файл с характеристикой всех выравниваний: info8.txt.

Контиг 20

Координаты хромосомы, соответствующие контигу: 248967-349674. Число выравниваний: 20. Аналогично, выравнивания легли на обратную цепь. Файл с характеристикой всех выравниваний: info20.txt.

Резюмируя, можно сказать, что три самых крупных контига покрывают достаточно большой процент хромосомы, но до половины генома не дотягивают (оно и понятно, так как L50=4, четвертый контиг, с которым было бы покрыто больше половины генома - N50). Если говорить о расположении друг относительно друга, то стоит сказать, что контиг 7 достаточно близко прилежит к контигу 8: концевая координата крайнего выравнивания контига 7 - 587055, начальная координата крайнего выравнивания контига 8 - 599832; в то же время даже по картам видно, что контиг 20 расположен далеко от контигов 7 и 8.

Дополнительное задание (1)

Самые длинные контиги
длина k-мера = 29 длина k-мера = 25
ID контига Длина контига Покрытие ID контига Длина контига Покрытие
7 115468 52.223586 49 14084 80.661247
20 106076 45.974914 13 13372 81.418636
8 75082 54.512946 57 13359 77.077176

При уменьшении длины k-меров увеличивается вероятность того, что како-нибудь k-мер попадет в повторяющийся участок. При такой ситуации программе сложно соотнести, какое продолжение будет у контига после k-мера, который попал на повтор, тогда она просто останаваливает сборку контига и "режет" его на этом месте. То есть при уменьшении длины k-мера ожидается увеличение числа контигов и уменьшение их длин. Действительно, при уменьшении длины k-мера с 29 до 25 количество выходных последвательностей из файла stats.txt (выдача velvetg) увеличилось с 720 до 3572, а длина контигов, как видно из таблицы, значительно уменьшилась; при этом среднее покрытие увеличилось. Соответственно, значение N50 значительно уменьшилось: было 46003, стало 5332.


© Агаева Зара, 2018