Сборка de novo

Практикум 14

Очистка чтений.

Для удобства адаптеры были помещены в единый файл коммандой "seqret @list.txt adaprers.fasta". (Содержание списка: NexteraPE-PE.fa, TruSeq2-PE.fa, TruSeq2-SE.fa, TruSeq3-PE-2.fa, TruSeq3-PE.fa, TruSeq3-SE.fa)
1) Очистка от адаптеров: "java -jar /usr/share/java/trimmomatic.jar SE -phred33 F.fastq p1.fastq ILLUMINACLIP:adapters.fasta:2:7:7". Пояснения к параметрам ILLUMINACLIP: первый - название файла, содержащего адаптеры, второй - максимальное число несоответствий при определении адаптера, третий - насколько аккуратным и точным должно быть соответствие между двумя "соединенными адаптерами", четвертый - насколько точным должно быть соответствие между любыми адаптерными последовательностями и ридами.
2) Очистка от плохих букв: "java -jar /usr/share/java/trimmomatic.jar SE -phred33 p1.fastq p2.fastq SLIDINGWINDOW:5:28 MINLEN:32". Пояснения к параметрам SLIDINGWINDOW: первый - задает длину скользящего окна, второй - минимальное среднее качество после окна. Пояснения к параметру MINLEN: 1 параметр, устанавливает значение предельной длины рида (т.е. все риды длиной меньше него - удаляются)
3) Объёмы исходного и получившегося в результате fastq-файлов:

Исходный Получившийся
Объем в мегабайтах 997 814
Объем в числе прочтений 3869686 3456842

Сборка.

1) Создание 31-меров: "velveth kmers 31 -fastq -short p2.fastq"
2) Сборка контигов: "velvetg kmers"
3) Информация о результатах работы:

Параметр Значение для k=31
N50 27
Общая длина, п.н 7126555
Число контигов 37292
Самые длинные контиги: длина и покрытие 657 - 10.707763
634 - 13.182965
627 - 43.791069
Контиг с самым высоким покрытием: длина и покрытие 31 - 99.516129
Контиг с самым низким покрытием: длина и покрытие 4639 контигов с таки покрытием - 1

Информация - из contigs.fa, после обработки средствами Excel.

Аннотирование.

1) Самый длинный контиг - >NODE 51621

Coatomer epsilon subunit mRNA, покрытие - 100%, identities - 100%
2) Контиг с самым высоким покрытием - >NODE 429709

CRINKLY4 related 3 (CCR3), mRNA, покрытие - 98%, identities - 100%
3) Контиг с самым низким покрытием - >NODE 129197

Full-length cDNA Complete sequence from clone GSLTSIL88ZA08 of Silique of strain col-0 of Arabidopsis thaliana, покрытие - 91%, identities - 92%
Во всех трех случаях организм -

Arabidopsis thaliana
            Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
            Spermatophyta; Magnoliophyta; eudicotyledons; Gunneridae;
            Pentapetalae; rosids; malvids; Brassicales; Brassicaceae;
            Camelineae; Arabidopsis.


Назад
© Петрова Юлия 2016