Ход работы
- Скопирован файл /nfs/srv/databases/ngs/sas/2019/B.fastq.gz в мою дирректорию /nfs/srv/databases/ngs/aleksandrpavele
- Разархивация файла: gunzip B.fastq.gz
- Создан файл /nfs/srv/databases/ngs/aleksandrpavele/adapt.fasta, содержащий все адаптеры из директории /P/y18/term3/block3/adapters
- Чтобы узнать количество ридов: fastqc B.fastq
- Обрезаем адаптеры: java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 B.fastq B_trim_1.fastq ILLUMINACLIP:adapt.fasta:2:7:7
- Убираем плохие буквы с концов: java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 B_trim_1.fastq B_trim_2.fastq SLIDINGWINDOW:5:28
- Удаляем прочтения короче 32 букв: java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 B_trim_2.fastq B_trim_3.fastq MINLEN:32
- Запуск создания 31-меров: velveth B_velveth 31 -short -fastq B_trim_3.fastq
- Анализируем сборку: velvetg B_velveth
- Аннотируем программой BLAST (на сайте NCBI) самый длинный контиг и контиги с максимальным и минимальным покрытием
В изначальном файле (весом 1018306 Кбайт) было 3869869 ридов. Выдача после очистки от адаптеров:
Input Reads: 3869869 Surviving: 3868391 (99,96%) Dropped: 1478 (0,04%)Вес стал 1011919 Кбайт. Выдача после удаления плохих букв с концов (с помощью SLIDINGWINDOW:размер окна:trashhold):
Input Reads: 3868391 Surviving: 3803911 (98,33%) Dropped: 64480 (1,67%)Вес стал 894365 Кбайт. Выдача после удаления прочтений < 32 букв:
Input Reads: 3803911 Surviving: 3544220 (93,17%) Dropped: 259691 (6,83%)Вес стал 866529 Кбайт. Выдача анализа сборки:
Final graph has 254871 nodes and n50 of 68, max 635, total 5337309Это значит, что всего 254871 контигов, N50 = 68, общая их длина 5337309.
- В финальной дирректории B_velveth находим файл contigs.fa, в котором указаны конечные контиги, их номера, длина, покрытие и последовательность.
- С помощью Excel и сортировки были получены: ID 98652, 9488 и 6487 с длинами 635, 624 и 604 и с покрытиями 8.896063, 8.217949 и 3.612583 (как самые длинные контиги); в файле почти 2000 контигов с наименьшим покрытием, а именно 1 (выбрал из них контиг с ID 31612, с длиной 69); контиг с самым большим покрытием имеет ID 204287, длину 57 и покрытие 99.912277.
- Последовательность с ID 98652 была засунута в BLASTN, после чего была получена лучшая находка: с AC: NM_119078; организм: Arabidopsis thaliana; с описанием: Arabidopsis thaliana DERLIN-1 (DER1), mRNA; контиг выровнился по находке один раз с 100% покрытием и 100% идентичностью.
- Аналогичное проделано с контигом 31612. Лучшая находка: AC: LR699747; организм: Arabidopsis thaliana; с описанием: Arabidopsis thaliana genome assembly, chromosome: 3; контиг выровнился по находке 7 раз с покрытием 76% и 100% идентичностью
- Аналогичное проделано с контигом 204287. Лучшая находка: AC: LR699749; организм: Arabidopsis thaliana; с описанием: Arabidopsis thaliana genome assembly, chromosome: 5; контиг выровнился по находке 7 раз с покрытием 100% и 100% идентичностью