Процесс работы
В данном практикуме необходимо произвести сборку генома из прочтений, полученных при секвенировании транскриптома Arabidopsis thaliana (G.fastq - файл с прочтениями).
gunzip G.fastq.gz | Программа, позволяющая разархивировать файл. |
cat *.fa >> adapters.fasta | Объединение файлов с адаптерами в один файл. |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 G.fastq G_cut1.fastq ILLUMINACLIP:adapters.fasta:2:7:7 | Очистка прочтений от адаптеров. Также на экран программа выдала информацию о размерах исходного (G.fastq) и получившегося в результате (G_cut1.fastq) файлов к воличестве ридов: 3869869 - в исходном, 3869408 - в полученом, что составляет 99,99% от исходного. Размеры файлов в мегабайтах: 1018306Мб - в исходном, 1003671Мб - в полученном. |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 G_cut1.fastq G_cut2.fastq SLIDINGWINDOW:5:28 MINLEN:32 | Очистка прочтений: SLIDINGWINDOW:5:28 - прохождение скользящим окном длины 5 вдоль каждого из прочтений и удаление каждого такого участка (длины 5), если среднее значение его качества меньше 28. MINLEN:32 - удаление прочтений, которые после очистки окажутся короче 32 букв. Как и в предыдущей команде на выходе мы получаем информацию о размерах файлов в количестве ридов: 3869408 - в исходном, 449190 - в полученном - 88,39% от исходного. Размеры файлов в мегабайтах: 1003671Мб - в исходном, 817041 - в полученном. |
velveth velveth_31 31 -fastq -short G_cut2.fastq | Подготовка k-меров длины k=31, опция -short - чтения не парные и короткие, velveth_31 - директория, в которой оказались получившиеся файлы. |
velvetg velveth_31/ | Сборка контигов из подготовленных предыдущей командой последовательностей. |
Анализ запуска velvet
- На первом этапе проводим подготовку 31-меров программой velveth. Команда на выходе даёт 2 файла (Sequences и Roadmaps) в отдельной директории, которые затем используются программой velvetg.
- На втором этапе происходит сборка контигов программой velvetg. Здесь на выходе мы получаем 6 файлов (Graph, LastGraph, Log, PreGraph, contigs.fa и stats.txt).
Для анализа сборки понадобится файл stats.txt. Характеристика некоторых контигов приведена в таблицах 2 и 3.
ID | Длина | Покрытие |
329697 | 606 | 14,40429 |
51173 | 590 | 3,523729 |
30413 | 589 | 2,597623 |
ID | Длина | Покрытие |
198011 | 4662508 | 1 |
223180 | 173071 | 1 |
1712 | 103414 | 1 |
Контигов с самым меньшим покрытием, равным 1, оказалось 86022, их длина разбросана от 69 до 1.
N50 сборки равен 28.
Анализ с помощью BlAST
Анализ самого длинного контига (номер - 329697).
При запуске megablast самой лучшей находкой оказалась Arabidopsis thaliana succinate dehydrogenase 2-2 (SDH2-2), mRNA. Характеристика выравнивания контига с находкой приведена в таблице 4. Найденая последовательность принадлежит виду Arabidopsis thaliana, относящемуся к семейству Крестоцветные. Ген SDH2-2 кодирует одну из трех изоформ железо-серного компонента комплекса сукцинатдегидрогеназы, компонента комплекса дыхательной цепи митохондрий II. Продукт ядерного кодируемого гена импортируется в митохондрию.
Число выравниваний контига с этой находкой - 1.
ID контига | ID находки | Query cover | E-value | Per. Ident |
329697 | 834065 | 100% | 0.0 | 100% |
Анализ контига, с самым большим покрытием (номер - 2333).
Снова лучшая находка принадлежит виду Arabidopsis thaliana, хромосоме 2. Характеристика выравнивания контига с находкой приведена в таблице 5.
ID контига | ID находки | Query cover | E-value | Per. Ident |
2333 | 572789 | 100% | 2e-27 | 100% |
Анализ контига, с самым маленьким покрытием (номер - 30637).
И опять лучшая находка принадлежит виду Arabidopsis thaliana, хромосоме 4. Характеристика выравнивания контига с находкой приведена в таблице 6.
ID контига | ID находки | Query cover | E-value | Per. Ident |
30637 | 572789 | 77% | 6e-29 | 98.70% |