Команда | Что делает |
---|---|
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 A.fastq A_noads.fastq ILLUMINACLIP:adapters.fasta:2:7:7 | ILLUMINACLIP удаляет остатки адаптеров, adapters.fasta - файл c адаптерами |
fastqc A_noads.fastq | Проверка качества чтений после удаления адаптеров |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 A_noads.fastq A_tr.fastq SLIDINGWINDOW:5:28 TRAILING:20 MINLEN:32 | Чистка чтений (порог длины - 32, качества - 20, скользящее окно длинной 5 убирает части ридов со средним качеством ниже 28) |
velveth velveth31 31 -fastq A_tr.fastq | Подготовка k-меров (k=31). Результат - директория velveth31. |
velvetg velveth31 | Сборка контигов на базе k-меров |
Рис. 1. Оценка качества чтений до триммирования после удаления адаптеров
Рис. 2. Оценка качества чтений после триммирования
После удаления адаптеров осталось 3868557 чтений. Качество последовательностей практически не изменилось (Dropped: 1312 (0,03%)). После чистки чтений осталось 3534843. Результат чистки чтений представлен на рисунках 1, 2. В результате триммирования качество чтений возросло. При удалении адаптеров размер файла уменьшился с 992М до 986М. А после триммирования размер файла составил 838M.
N50 = 150. Максимальная длина контига - 1238 нуклеотида. Информация о трёх самых длинных контигах и их покрытиях - в таблице 2. Там же рассмотрены контиги с несвойственным покрытием. У самых длинных контигов из таблицы покрытие среднее. Медиана покрытий - 12.
ID | Длина | Покрытие |
---|---|---|
13428 | 1238 | 5,104 |
3969 | 1166 | 72,961 |
2583 | 1080 | 35,499 |
Контиги с аномальным покрытием | ||
17818 | 41 | 1966.951 |
1661 | 70 | 2 |
С помощью megablast были проаннотированы самый длинный контиг и контиги с аномальными покрытиями. Описание выравний - в таблице 3.
ID контига | Sequence ID находки | Число гэпов | Identity | Query Cover | Score | Количество выравниваний с данной находкой | Организм | Описание |
---|---|---|---|---|---|---|---|---|
13428 | NM_001344297.1 | 0 | 100% | 62% | 1456 | 2 | Arabidopsis thaliana | трансмембранный белок (AT5G39570), мРНК |
17818 | AC019018.9 | 0 | 100% | 95% | 126 | 1 | Arabidopsis thaliana | BAC F14G24 хромосомы 1 |
1661 | AY090989.1 | 0 | 100% | 100% | 185 | 1 | Arabidopsis thaliana | At1g79245, мРНК |