• Для анализа был взят файл с одноконцевыми чтениями chr4.1.fastq;
| Подготовка и анализ качества чтений |
Команда | Операция | Результат |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic -0.30.jar SE -phred33 chr4.1.fastq chr4new.fastq TRAILING:20 MINLEN:50 | • Удаление концевых нуклеотидов ридов качества ниже 20 • Отбор чтений длиной от 50 нуклеотидов и больше |
файл chr4new.fastq |
• В исходном файле chr4.1.fastq было 2735 чтений длиной от 32 до 51 нуклеотида; в файле chr4new.fastq после обработкой программой trimmomatic осталось 2705 чтений длиной от 50 до 51 нуклеотида;
• Диаграммы размахов на рис.1 и рис.2 отражают то, что основным параметнром для удаления являлась длина меньше 50 нуклеотидов, поскольку качество чтений было изначально неплохим, и средние значения качества практически не изменились после выполнения программы;
| Картирование; анализ выравнивания |
Команда | Операция | Результат |
hisat2 -x chr4 -U chr4new.fastq --no-softclip > align.sam | • Построение выравнивания прочтений и референса в формате .sam • Нет параметра --no-spliced-alignment, поскольку анализируется РНК, которая подвергается сплайсингу (вырезанию интронов); из-за этого выравнивание можно делать разрывным; |
файл align.sam |
samtools view align.sam -b -o align.bam |
Перевод выравнивания чтений с референсом в бинарный формат .bam (samtools view) | файл align.bam |
samtools sort align.bam -T sorted.txt -o alignsorted.bam |
Сортировка выравнивания чтений с референсом по координате в референсе начала чтения (samtools sort) | файл alignsorted.bam |
samtools index alignsorted.bam |
Индексация отсортированного .bam файла (samtools index) | alignsorted.bam, alignsorted.bam.bai |
samtools idxstats alignsorted.bam > align.txt |
Информация о количестве откартированных чтений | файл align.txt |
Конечный файл align.txt содержит в себе следуюущю информацию:
chr4 191154276 2633 0 * 0 0 72
Это означает, что 2633 чтения были откартированы на хромосому, а 72 - не были.
| Подсчет чтений |
• Файл gencode.v19.chr_patch_hapl_scaff.annotation.gtf был скопирован в рабочую директорию;
Команда | Операция | Результат |
htseq-count -f bam -m intersection-nonempty -s no -i gene_id alignsorted.bam gencode.v19.chr_patch_hapl_scaff.annotation.gtf > result | Подсчет чтений разных видов; | Файл result |
• Выдача программы:
ENSG00000071127.12 1861 ENSG00000223086.1 1 ENSG00000261490.1 2 __no_feature 769 __not_aligned 72
Это означает, что 1861 чтение лежит в границе были найдены в границах гена ENSG00000071127.12; 1 чтение - в границах гена ENSG00000223086.1; 2 чтения - в границах гена ENSG00000261490.1;
• Параметры программы Htseq-count:
-f < format >
- Формат входных данных; может быть SAM (текстовые .sam файлы) и BAM (бинарные .bam файлы); по умолчанию стоит формат .sam;
-s < yes/no/reverse >
- no - чтение может быть найдено как на прямой, так и на обратной цепи; -yes - по прямому направлению; reverse - по обратному направлению к прямому; по умолчанию - yes;
-i < id attribute >
- Атрибут GFF как feature ID; по умолчанию - gene_id;
-m < mode >
- Параметр, определяющий "поведение" программы в том случае, если чтение может входить в несколько разных feature; по умолчанию - none;
©Машковская Анна, 2018