Задание 14 для опоздавших :c
Сборка по результатам секвенирования транскриптома резушки Arabidopsis thaliana. Использовался файл A.fastq.
Очистка прочтений от адапторов и удаление некачественных ридов с помощью Trimmomatic
Для этого сначала создала общий fasta-файл из данных адапторов (adaptors.fasta), а затем адапторы были удалены с помощью команды ниже.

>Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 A.fastq A-out.fastq ILLUMINACLIP:adap.fasta:2:7:7
На самом деле должна была быть команда:
> java -jar /usr/share/java/trimmomatic.jar SE -phred33 A.fastq A-out.fastq SLIDINGWINDOW:5:28 MINLEN:32
Я её выполнила, поэтому в рабочей директории файл A-out.fasq теперь перезаписан на верный, но дальнейшие этапы сборки производились со старой версией.

Далее были удалены риды с качеством ниже 28, длина ридов не менее 32. Получили: из 3869869 ридов осталось после чистки 3829397 (98,95%) ридов, а удалено было 40472 (1,05%).
>Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 A-out.fastq A-out_trim.fastq TRAILING:28 MINLEN:32

Программа velveth - подготовка k-мер длиной k=31.
>Команда: velveth vel 31 -short -fastq A-out_trim.fastq
Где vel - название папки; 31 - длина к-мера; short – нужны только короткие и непарные чтения

Сборка контигов программой velvetg
>Команда:velvetg vel

Программа velvetg сообщила: Final graph has 344822 nodes and n50 of 62, max 669, total 6432434, using 0/3829397 reads
Таким образом:

N50 = 62
Длина и покрытие трёх самых длинных контигов:
NODE27900: length = 669, cov = 5.75486
NODE29125: length = 643, cov = 3.17263
NODE51444: length = 642, cov = 7.94393

Длина и покрытие контигов с самым высоким и самым низким покрытием –
С самым низким: >NODE_12168: length = 69, cov = 1.000000
C самым высоким: >NODE_28422: length = 164, cov = 9.993902

Аннотация программой BLAST (на сайте NCBI) самый длинный контиг и контиги с максимальным и минимальным покрытием
Cамый длинный контиг (NODE27900):
1.Банковскую аннотация лучшей находки: организм - Arabidopsis thaliana chromosome 4 sequence
2.Число выравниваний контига с этой находкой, выданных BLAST-ом: 1
3.Характеристики этих выравниваний:сходство 100%, покрытие 94%


Cамый маленькое покрытие контиг (NODE12168):
1.Банковскую аннотация лучшей находки: организм - Arabidopsis thaliana ATP synthase 9 mitochondrial partial mRNA
2.Число выравниваний контига с этой находкой, выданных BLAST-ом: 1
3.Характеристики этих выравниваний: сходство 100%, покрытие 78%



Cамый большое покрытие контиг NODE(28422)
1.Банковскую аннотация лучшей находки: организм - Arabidopsis thaliana P-loop containing nucleoside triphosphate hydrolases superfamily protein (VIIIA), mRNA 2.Число выравниваний контига с этой находкой, выданных BLAST-ом: 1
3.Характеристики этих выравниваний: сходство 100%, покрытие 100%


Назад