Сборка de novo


Задание №1

Заданная хромосома - B.fastq. Скопирована в директорию /nfs/srv/databases/ngs/esurikova и разархивирована gunzip.

Задание №2

Адаптеры были соединены с помощью seqret. Прочтения были очищены от адаптеров с помощью ILLUMINACLIP - части Trimmomatic:

$ seqret
Read and write (return) sequences
Input (gapped) sequence(s): /P/y16/term3/block3/adapters/*
output sequence(s) [prefixpe_1.fasta]: adapters.fa

$ java -jar /usr/share/java/trimmomatic.jar SE -phred33 B.fastq B_without_adapters.fastq ILLUMINACLIP:adapters.fa:2:7:7

Input Reads: 3869869 Surviving: 3868391 (99,96%) Dropped: 1478 (0,04%)

Задание №3

Были убраны нуклеотиды низкого качества прочтения с концов с помощью программы SLIDINGWINDOW, также являющейся частью Trimmomatic. Она начинает сканировать с 5'-конца и отрезает конец рида, когда общее качество в окне падает ниже заданного значения. Параметры: длина скользящего окна - 5, порог качества - 28. Удалять прочтения, которые будут содержать менее 32 букв после очистки как недостоверные.

$ java -jar /usr/share/java/trimmomatic.jar SE -phred33 B_without_adapters.fastq B_cleaned.fastq SLIDINGWINDOW:5:28 MINLEN:32

Input Reads: 3868391 Surviving: 3544219 (91,62%) Dropped: 324172 (8,38%)

Задание №4


Число прочтений до Trimmomatic - 3869869, размер файла - 995M.
Число прочтений после Trimmomatic - 3544219, размер файла - 847M.

Сравнение качества программой FastQC, изображение слева - до Trimmomatic, справа - после.

Задание №5

Для создания 31-меров (все возможные последовательности рида длины 31) была использована программа velveth. Она нужна для запуска velvetg. Velveth создаёт файл с k-mer'ами, и файл с информацией о том, чем является каждая последовательность первого файла. Параметр hash_length = 31, длина k-mer'а. Параметр категория рида = short, короткие непарные чтения.

$ velveth B_velveth 31 -fastq -short B_cleaned.fastq

B_velveth/
Log  Roadmaps  Sequences

Задание №6

Контиги собираются программой velvetq. Она собирает геном, используя графы де Брюйна.

$ velvetg B_velveth

Final graph has 254922 nodes and n50 of 68, max 635, total 5337280, using 0/3544219 reads

Задание №7.

Для того чтобы разобраться в stats.txt заглянем в мануал.

4.2.2 The stats.txt file

This file is a simple tabbed-delimited description of the nodes. The column names are pretty much self-explanatory. Note however that node lengths are given in k-mers. To obtain the length in nucleotides of each node you simply need to add k - 1, where k is the word-length used in velveth. The in and out columns correspond to the number of arcs on the 5’ and 3’ ends of the contig respectively.

The coverages in columns short1_cov, short1_Ocov, short2_cov, and short2_Ocov are provided in k-mer coverage, i.e. how many times has a k-mer been seen among the reads. The relation between k-mer coverage Ck and standard (nucleotide-wise) coverage C is Ck = C * (L - k + 1)/L where k is your hash length, and L you read length.

Also, the difference between *_cov and *_Ocov is the way these values are computed. In the first count, slightly divergent sequences are added to the coverage tally. However, in the second, stricter count, only the sequences which map perfectly onto the consensus sequence are taken into account.

Таким образом, N50 = 98, максимальная длина контига = 665.

Таблица ниже содержит информацию о трёх самых длинных контигах, контигах с самым высоким и самым низким покрытием.

Длина short1_cov short1_Ocov
Три контига максимальной длины
665 8.896063 8.798425
654 8.217949 8.217949
634 3.612583 3.612583
Контиг с максимальным покрытием
31 1074000 1074000
Контиг с минимальным покрытием
99 1 1
Средние значения
150,046555 513,071981 314,564306

Задание №8.

Самый длинный контиг, контиги с максимальным и минимальным покрытием были проаннотированы с помощью BLAST'a. Grep "length_*длина контига*" для поиска контига.

Самый длинный контиг.

Использованный алгоритм - Megablast.
Параметры:
Лучшая находка:
Arabidopsis thaliana DERLIN-1 (DER1), mRNA




Наименее покрытый контиг.

Использованный алгоритм - Megablast.
Параметры:
Лучшая находка:
Arabidopsis thaliana cellulose synthase, putative (DUF1644) mRNA




Наболее покрытый контиг.

Использованный алгоритм - Megablast.
Параметры:
Лучшая находка:
Arabidopsis thaliana chromosome 2 sequence

К сожалению, всё ,что нам известно из данной аннотации, - последовательность, возможно, принадлежит 2-ой хромосоме.



© Сурикова Елена 2016