Практикум 14
Для удобства адаптеры были помещены в единый файл коммандой "seqret @list.txt adaprers.fasta". (Содержание списка: NexteraPE-PE.fa, TruSeq2-PE.fa, TruSeq2-SE.fa, TruSeq3-PE-2.fa, TruSeq3-PE.fa, TruSeq3-SE.fa)
1) Очистка от адаптеров: "java -jar /usr/share/java/trimmomatic.jar SE -phred33 F.fastq p1.fastq ILLUMINACLIP:adapters.fasta:2:7:7". Пояснения к параметрам ILLUMINACLIP: первый - название файла, содержащего адаптеры, второй - максимальное число несоответствий при определении адаптера, третий - насколько аккуратным и точным должно быть соответствие между двумя "соединенными адаптерами", четвертый - насколько точным должно быть соответствие между любыми адаптерными последовательностями и ридами.
2) Очистка от плохих букв: "java -jar /usr/share/java/trimmomatic.jar SE -phred33 p1.fastq p2.fastq SLIDINGWINDOW:5:28 MINLEN:32". Пояснения к параметрам SLIDINGWINDOW: первый - задает длину скользящего окна, второй - минимальное среднее качество после окна. Пояснения к параметру MINLEN: 1 параметр, устанавливает значение предельной длины рида (т.е. все риды длиной меньше него - удаляются)
3) Объёмы исходного и получившегося в результате fastq-файлов:
Исходный | Получившийся | |
Объем в мегабайтах | 997 | 814 |
Объем в числе прочтений | 3869686 | 3456842 |
1) Создание 31-меров: "velveth kmers 31 -fastq -short p2.fastq"
2) Сборка контигов: "velvetg kmers"
3) Информация о результатах работы:
Параметр | Значение для k=31 |
N50 | 27 |
Общая длина, п.н | 7126555 |
Число контигов | 37292 |
Самые длинные контиги: длина и покрытие | 657 - 10.707763 634 - 13.182965 627 - 43.791069 |
Контиг с самым высоким покрытием: длина и покрытие | 31 - 99.516129 |
Контиг с самым низким покрытием: длина и покрытие | 4639 контигов с таки покрытием - 1 |
1) Самый длинный контиг - >NODE 51621
Coatomer epsilon subunit mRNA, покрытие - 100%, identities - 100%
2) Контиг с самым высоким покрытием - >NODE 429709
CRINKLY4 related 3 (CCR3), mRNA, покрытие - 98%, identities - 100%
3) Контиг с самым низким покрытием - >NODE 129197
Full-length cDNA Complete sequence from clone GSLTSIL88ZA08 of Silique of strain col-0 of Arabidopsis thaliana, покрытие - 91%, identities - 92%
Во всех трех случаях организм -
Arabidopsis thaliana Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; Gunneridae; Pentapetalae; rosids; malvids; Brassicales; Brassicaceae; Camelineae; Arabidopsis.