Заданная хромосома - B.fastq. Скопирована в директорию /nfs/srv/databases/ngs/esurikova и разархивирована gunzip.
Адаптеры были соединены с помощью seqret. Прочтения были очищены от адаптеров с помощью ILLUMINACLIP - части Trimmomatic:
$ seqret Read and write (return) sequences Input (gapped) sequence(s): /P/y16/term3/block3/adapters/* output sequence(s) [prefixpe_1.fasta]: adapters.fa $ java -jar /usr/share/java/trimmomatic.jar SE -phred33 B.fastq B_without_adapters.fastq ILLUMINACLIP:adapters.fa:2:7:7 Input Reads: 3869869 Surviving: 3868391 (99,96%) Dropped: 1478 (0,04%)
Были убраны нуклеотиды низкого качества прочтения с концов с помощью программы SLIDINGWINDOW, также являющейся частью Trimmomatic. Она начинает сканировать с 5'-конца и отрезает конец рида, когда общее качество в окне падает ниже заданного значения. Параметры: длина скользящего окна - 5, порог качества - 28. Удалять прочтения, которые будут содержать менее 32 букв после очистки как недостоверные.
$ java -jar /usr/share/java/trimmomatic.jar SE -phred33 B_without_adapters.fastq B_cleaned.fastq SLIDINGWINDOW:5:28 MINLEN:32 Input Reads: 3868391 Surviving: 3544219 (91,62%) Dropped: 324172 (8,38%)
Сравнение качества программой FastQC, изображение слева - до Trimmomatic, справа - после.
Длина | short1_cov | short1_Ocov |
Три контига максимальной длины | ||
665 | 8.896063 | 8.798425 |
654 | 8.217949 | 8.217949 |
634 | 3.612583 | 3.612583 |
Контиг с максимальным покрытием | ||
31 | 1074000 | 1074000 |
Контиг с минимальным покрытием | ||
99 | 1 | 1 |
Средние значения | ||
150,046555 | 513,071981 | 314,564306 |
Самый длинный контиг, контиги с максимальным и минимальным покрытием были проаннотированы с помощью BLAST'a. Grep "length_*длина контига*" для поиска контига.
К сожалению, всё ,что нам известно из данной аннотации, - последовательность, возможно, принадлежит 2-ой хромосоме.