Анализ транскриптомов 🐅

~mashkovskayaav

• Для анализа был взят файл с одноконцевыми чтениями chr4.1.fastq;

| Подготовка и анализ качества чтений |

Команда Операция Результат
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic -0.30.jar SE -phred33 chr4.1.fastq chr4new.fastq TRAILING:20 MINLEN:50 • Удаление концевых нуклеотидов ридов качества ниже 20

• Отбор чтений длиной от 50 нуклеотидов и больше
файл chr4new.fastq

• В исходном файле chr4.1.fastq было 2735 чтений длиной от 32 до 51 нуклеотида; в файле chr4new.fastq после обработкой программой trimmomatic осталось 2705 чтений длиной от 50 до 51 нуклеотида;

• Диаграммы размахов на рис.1 и рис.2 отражают то, что основным параметнром для удаления являлась длина меньше 50 нуклеотидов, поскольку качество чтений было изначально неплохим, и средние значения качества практически не изменились после выполнения программы;

Рисунок 1; chr4.1.fastq

Рисунок 2; chr4new.fastq

| Картирование; анализ выравнивания |


Команда Операция Результат
hisat2 -x chr4 -U chr4new.fastq --no-softclip > align.sam • Построение выравнивания прочтений и референса в формате .sam
• Нет параметра --no-spliced-alignment, поскольку анализируется РНК, которая подвергается сплайсингу (вырезанию интронов); из-за этого выравнивание можно делать разрывным;
файл align.sam

samtools view align.sam -b -o align.bam
Перевод выравнивания чтений с референсом в бинарный формат .bam (samtools view) файл align.bam

samtools sort align.bam -T sorted.txt -o alignsorted.bam
Сортировка выравнивания чтений с референсом по координате в референсе начала чтения (samtools sort) файл alignsorted.bam

samtools index alignsorted.bam
Индексация отсортированного .bam файла (samtools index) alignsorted.bam, alignsorted.bam.bai

samtools idxstats alignsorted.bam > align.txt
Информация о количестве откартированных чтений файл align.txt

Конечный файл align.txt содержит в себе следуюущю информацию:

 chr4	191154276	2633	0   
 *	0	0	72          
 

Это означает, что 2633 чтения были откартированы на хромосому, а 72 - не были.


| Подсчет чтений |


• Файл gencode.v19.chr_patch_hapl_scaff.annotation.gtf был скопирован в рабочую директорию;

Команда Операция Результат
htseq-count -f bam -m intersection-nonempty -s no -i gene_id alignsorted.bam gencode.v19.chr_patch_hapl_scaff.annotation.gtf > result Подсчет чтений разных видов; Файл result

• Выдача программы:

      ENSG00000071127.12      1861
      ENSG00000223086.1       1
      ENSG00000261490.1       2
      __no_feature    769
      __not_aligned   72   	
 

Это означает, что 1861 чтение лежит в границе были найдены в границах гена ENSG00000071127.12; 1 чтение - в границах гена ENSG00000223086.1; 2 чтения - в границах гена ENSG00000261490.1;

• Параметры программы Htseq-count:

-f < format >

- Формат входных данных; может быть SAM (текстовые .sam файлы) и BAM (бинарные .bam файлы); по умолчанию стоит формат .sam;

-s < yes/no/reverse >

- no - чтение может быть найдено как на прямой, так и на обратной цепи; -yes - по прямому направлению; reverse - по обратному направлению к прямому; по умолчанию - yes;

-i < id attribute >

- Атрибут GFF как feature ID; по умолчанию - gene_id;

-m < mode >

- Параметр, определяющий "поведение" программы в том случае, если чтение может входить в несколько разных feature; по умолчанию - none;


©Машковская Анна, 2018