Сборка de novo

Процесс работы

В данном практикуме необходимо произвести сборку генома из прочтений, полученных при секвенировании транскриптома Arabidopsis thaliana (G.fastq - файл с прочтениями).

Таблица 1. Использованные команды
gunzip G.fastq.gz Программа, позволяющая разархивировать файл.
cat *.fa >> adapters.fasta Объединение файлов с адаптерами в один файл.
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 G.fastq G_cut1.fastq ILLUMINACLIP:adapters.fasta:2:7:7

Очистка прочтений от адаптеров.

Также на экран программа выдала информацию о размерах исходного (G.fastq) и получившегося в результате (G_cut1.fastq) файлов к воличестве ридов: 3869869 - в исходном, 3869408 - в полученом, что составляет 99,99% от исходного. Размеры файлов в мегабайтах: 1018306Мб - в исходном, 1003671Мб - в полученном.

java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 G_cut1.fastq G_cut2.fastq SLIDINGWINDOW:5:28 MINLEN:32

Очистка прочтений:

SLIDINGWINDOW:5:28 - прохождение скользящим окном длины 5 вдоль каждого из прочтений и удаление каждого такого участка (длины 5), если среднее значение его качества меньше 28.

MINLEN:32 - удаление прочтений, которые после очистки окажутся короче 32 букв.

Как и в предыдущей команде на выходе мы получаем информацию о размерах файлов в количестве ридов: 3869408 - в исходном, 449190 - в полученном - 88,39% от исходного. Размеры файлов в мегабайтах: 1003671Мб - в исходном, 817041 - в полученном.

velveth velveth_31 31 -fastq -short G_cut2.fastq

Подготовка k-меров длины k=31, опция -short - чтения не парные и короткие, velveth_31 - директория, в которой оказались получившиеся файлы.

velvetg velveth_31/

Сборка контигов из подготовленных предыдущей командой последовательностей.

Анализ запуска velvet

  1. На первом этапе проводим подготовку 31-меров программой velveth. Команда на выходе даёт 2 файла (Sequences и Roadmaps) в отдельной директории, которые затем используются программой velvetg.
  2. На втором этапе происходит сборка контигов программой velvetg. Здесь на выходе мы получаем 6 файлов (Graph, LastGraph, Log, PreGraph, contigs.fa и stats.txt).

Для анализа сборки понадобится файл stats.txt. Характеристика некоторых контигов приведена в таблицах 2 и 3.

Таблица 2. Характеристика 3 самых длинных контигов
ID Длина Покрытие
329697 606 14,40429
51173 590 3,523729
30413 589 2,597623

Таблица 3. Характеристика 3 контигов с самым большим покрытием
ID Длина Покрытие
198011 4662508 1
223180 173071 1
1712 103414 1

Контигов с самым меньшим покрытием, равным 1, оказалось 86022, их длина разбросана от 69 до 1.

N50 сборки равен 28.

Анализ с помощью BlAST

Анализ самого длинного контига (номер - 329697).

При запуске megablast самой лучшей находкой оказалась Arabidopsis thaliana succinate dehydrogenase 2-2 (SDH2-2), mRNA. Характеристика выравнивания контига с находкой приведена в таблице 4. Найденая последовательность принадлежит виду Arabidopsis thaliana, относящемуся к семейству Крестоцветные. Ген SDH2-2 кодирует одну из трех изоформ железо-серного компонента комплекса сукцинатдегидрогеназы, компонента комплекса дыхательной цепи митохондрий II. Продукт ядерного кодируемого гена импортируется в митохондрию.

Число выравниваний контига с этой находкой - 1.

Таблица 4. Характеристика выравнивания контига с находкой
ID контига ID находки Query cover E-value Per. Ident
329697 834065 100% 0.0 100%

Анализ контига, с самым большим покрытием (номер - 2333).

Снова лучшая находка принадлежит виду Arabidopsis thaliana, хромосоме 2. Характеристика выравнивания контига с находкой приведена в таблице 5.

Таблица 5. Характеристика выравнивания контига с находкой
ID контига ID находки Query cover E-value Per. Ident
2333 572789 100% 2e-27 100%

Анализ контига, с самым маленьким покрытием (номер - 30637).

И опять лучшая находка принадлежит виду Arabidopsis thaliana, хромосоме 4. Характеристика выравнивания контига с находкой приведена в таблице 6.

Таблица 6 Характеристика выравнивания контига с находкой
ID контига ID находки Query cover E-value Per. Ident
30637 572789 77% 6e-29 98.70%
Назад

Главная страница