Анализ транскриптомов. Bedtools.

1. Подготовка чтений и анализ их качества

Таблица 1. Использованные команды
Команда Что делает
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 A.fastq A_noads.fastq ILLUMINACLIP:adapters.fasta:2:7:7 ILLUMINACLIP удаляет остатки адаптеров, adapters.fasta - файл c адаптерами
fastqc A_noads.fastq Проверка качества чтений после удаления адаптеров
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 A_noads.fastq A_tr.fastq SLIDINGWINDOW:5:28 TRAILING:20 MINLEN:32 Чистка чтений (порог длины - 32, качества - 20, скользящее окно длинной 5 убирает части ридов со средним качеством ниже 28)
velveth velveth31 31 -fastq A_tr.fastq Подготовка k-меров (k=31). Результат - директория velveth31.
velvetg velveth31 Сборка контигов на базе k-меров
Flowers in Chania

Рис. 1. Оценка качества чтений до триммирования после удаления адаптеров

Flowers in Chania

Рис. 2. Оценка качества чтений после триммирования

После удаления адаптеров осталось 3868557 чтений. Качество последовательностей практически не изменилось (Dropped: 1312 (0,03%)). После чистки чтений осталось 3534843. Результат чистки чтений представлен на рисунках 1, 2. В результате триммирования качество чтений возросло. При удалении адаптеров размер файла уменьшился с 992М до 986М. А после триммирования размер файла составил 838M.

2.Подготовка k-меров и сборка контигов

N50 = 150. Максимальная длина контига - 1238 нуклеотида. Информация о трёх самых длинных контигах и их покрытиях - в таблице 2. Там же рассмотрены контиги с несвойственным покрытием. У самых длинных контигов из таблицы покрытие среднее. Медиана покрытий - 12.

Таблица 2. Характеристики контигов
ID Длина Покрытие
13428 1238 5,104
3969 1166 72,961
2583 1080 35,499
Контиги с аномальным покрытием
17818 41 1966.951
1661 70 2

Построение выравнивания

С помощью megablast были проаннотированы самый длинный контиг и контиги с аномальными покрытиями. Описание выравний - в таблице 3.

Таблица 3. Характеристики выравнивания
ID контига Sequence ID находки Число гэпов Identity Query Cover Score Количество выравниваний с данной находкой Организм Описание
13428 NM_001344297.1 0 100% 62% 1456 2 Arabidopsis thaliana трансмембранный белок (AT5G39570), мРНК
17818 AC019018.9 0 100% 95% 126 1 Arabidopsis thaliana BAC F14G24 хромосомы 1
1661 AY090989.1 0 100% 100% 185 1 Arabidopsis thaliana At1g79245, мРНК