Сборка de novo

Процесс работы

В данном практикуме необходимо произвести сборку генома из прочтений, полученных при секвенировании транскриптома Arabidopsis thaliana (G.fastq - файл с прочтениями).

**Таблица 1.** Использованные команды
gunzip G.fastq.gz	Программа, позволяющая разархивировать файл.
cat *.fa >> adapters.fasta	Объединение файлов с адаптерами в один файл.
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 G.fastq G_cut1.fastq ILLUMINACLIP:adapters.fasta:2:7:7	Очистка прочтений от адаптеров. Также на экран программа выдала информацию о размерах исходного (G.fastq) и получившегося в результате (G_cut1.fastq) файлов к воличестве ридов: 3869869 - в исходном, 3869408 - в полученом, что составляет 99,99% от исходного. Размеры файлов в мегабайтах: 1018306Мб - в исходном, 1003671Мб - в полученном.
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 G_cut1.fastq G_cut2.fastq SLIDINGWINDOW:5:28 MINLEN:32	Очистка прочтений: SLIDINGWINDOW:5:28 - прохождение скользящим окном длины 5 вдоль каждого из прочтений и удаление каждого такого участка (длины 5), если среднее значение его качества меньше 28. MINLEN:32 - удаление прочтений, которые после очистки окажутся короче 32 букв. Как и в предыдущей команде на выходе мы получаем информацию о размерах файлов в количестве ридов: 3869408 - в исходном, 449190 - в полученном - 88,39% от исходного. Размеры файлов в мегабайтах: 1003671Мб - в исходном, 817041 - в полученном.
velveth velveth_31 31 -fastq -short G_cut2.fastq	Подготовка k-меров длины k=31, опция -short - чтения не парные и короткие, velveth_31 - директория, в которой оказались получившиеся файлы.
velvetg velveth_31/	Сборка контигов из подготовленных предыдущей командой последовательностей.

Анализ запуска velvet

На первом этапе проводим подготовку 31-меров программой velveth. Команда на выходе даёт 2 файла (Sequences и Roadmaps) в отдельной директории, которые затем используются программой velvetg.
На втором этапе происходит сборка контигов программой velvetg. Здесь на выходе мы получаем 6 файлов (Graph, LastGraph, Log, PreGraph, contigs.fa и stats.txt).

Для анализа сборки понадобится файл stats.txt. Характеристика некоторых контигов приведена в таблицах 2 и 3.

**Таблица 2.** Характеристика 3 самых длинных контигов
ID	Длина	Покрытие
329697	606	14,40429
51173	590	3,523729
30413	589	2,597623

**Таблица 3.** Характеристика 3 контигов с самым большим покрытием
ID	Длина	Покрытие
198011	4662508	1
223180	173071	1
1712	103414	1

Контигов с самым меньшим покрытием, равным 1, оказалось 86022, их длина разбросана от 69 до 1.

N50 сборки равен 28.

Анализ с помощью BlAST

Анализ самого длинного контига (номер - 329697).

При запуске megablast самой лучшей находкой оказалась Arabidopsis thaliana succinate dehydrogenase 2-2 (SDH2-2), mRNA. Характеристика выравнивания контига с находкой приведена в таблице 4. Найденая последовательность принадлежит виду Arabidopsis thaliana, относящемуся к семейству Крестоцветные. Ген SDH2-2 кодирует одну из трех изоформ железо-серного компонента комплекса сукцинатдегидрогеназы, компонента комплекса дыхательной цепи митохондрий II. Продукт ядерного кодируемого гена импортируется в митохондрию.

Число выравниваний контига с этой находкой - 1.

**Таблица 4.** Характеристика выравнивания контига с находкой
ID контига	ID находки	Query cover	E-value	Per. Ident
329697	834065	100%	0.0	100%

Анализ контига, с самым большим покрытием (номер - 2333).

Снова лучшая находка принадлежит виду Arabidopsis thaliana, хромосоме 2. Характеристика выравнивания контига с находкой приведена в таблице 5.

**Таблица 5.** Характеристика выравнивания контига с находкой
ID контига	ID находки	Query cover	E-value	Per. Ident
2333	572789	100%	2e-27	100%

Анализ контига, с самым маленьким покрытием (номер - 30637).

И опять лучшая находка принадлежит виду Arabidopsis thaliana, хромосоме 4. Характеристика выравнивания контига с находкой приведена в таблице 6.

**Таблица 6** Характеристика выравнивания контига с находкой
ID контига	ID находки	Query cover	E-value	Per. Ident
30637	572789	77%	6e-29	98.70%

Назад

Главная страница