Сборка de novo

Задание 1.
Требовалось использовать пакет velvet для сбора из всех прошедших очистку чтений полученного набора контиги без использования референса. Были применены следующие команды:
  • velveth vel 31 -fastq trim3.fastq - для выделения из чтений k-меров длиной 31;
  • velvetg vel - для сборки контигов на основе графа k-меров.

Результат - собрано 156 контигов, N50 - 266, максимальная длина контига - 15264:


Рис.1. Результат работы программ пакета velvet. Все контиги записываны в файл contigs.fa в директории vel


Задание 2.

Требовалось сравнить получившиеся контиги с последовательностью хромосомы программой blastn (алгоритм megablast). Команды:

  • makeblastdb -in chr16.fasta -dbtype nucl - создаёт базу данных из последовательности 11 хромосомы;
  • blastn -db chr16.fasta -query vel/contigs.fa -outfmt 7 -out vel.out - выполняет сравнение получившихся контигов с последовательностью 16 хромосомы.

Файл vel.out был обработан в Excel. В этом файле на первом листе расположены все контиги, на второй - только те контиги, которые картировались на хромосому единственным образом - таких нашлось 73. Некоторые из них картировались на одно и то же место:


Рис.2. Контиги, картировавшиеся на хромосому единственным образом. Картированные на одно и то же место выделены красным.

Охарактеризуем картированные единственным образом контиги:

  • Много крупных разрывов между контигами (1000 - 5000 п.н.) - скорее всего, это интроны:
    Рис.3. Пример гипотетического интрона.

  • Крупные разрывы в несколько сотен тысяч п.н. - межгенная область, т.к. это количество многократно превышает среднее значение длины интронов у человека:
    Рис.4. Пример гипотетической межгенной области.
© Andrew Sigorskih,2015.