Практикум 12. Анализ транскриптомов

1. Анализ качества чтений

Сначала был проведен анализ качества чтений. Команда:
fastqc chr6.1.fastq
- получение файлов с информацией о качестве чтений. Выдача FastQC per base quality: Качество чтений оказалось хорошим, так что чистка программой Trimmomatic не понадобилась.

2. Картирование чтений

Был экспортирован пакет программ:
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5
Референсная последовательность была проиндексирована в прошлом практикуме с помощью команды
hisat2-build chr6.fasta chr6index
Затем было построено выравнивание прочтений и референса в формате .sam. Команда:
hisat2 -x chr6index -U chr61trim.fastq --no-softclip > 1align.sam
Из параметров был убран -no-spliced-alignment, т. к. в этот раз мы работаем с РНК, которая могла подвергнуться сплайсингу.

3. Анализ выравнивания

Выравнивание было переведено в бинарный формат командой
samtools view 1align.sam -bo 1align.bam
Выравнивание чтений с референсом было отсортировано. Команда:
samtools sort 1align.bam -T align1.txt -o sort.bam
Отсортированный .bam файл был проиндексирован командой
samtools index sort.bam
Откартированные прочтения были записаны в файл с помощью команды:
samtools idxstats sort.bam > 61.txt
В файле 61.txt прописаны число картированных(44621) и некартированных ридов(9199), длина хромосомы(171115067).

4. Подсчет чтений

Файл .bam был переведен в .bed командой
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i sort.bam > 61.bed
Командой
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b 61.bed -u > 611.bed
был получен файл с информацией о ненулевых перекрытиях ридов с генами генома. Количество перекрывающихся ридов было получено с помощью команд
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b 61.bed -c > 611.bed sort -k 6 -r 611.bed > 611sorted.bed
Направление цепи было получено с помощью команд
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b 61.bed -wb > 611.bed sort -k 6 -r 611.bed > 611sorted.bed
Некоторые из полученных результатов:
Координаты Ген Функция Количество ридов Направление цепи
74175932 - 74210424 MTO1 protein_coding 2 -
74197315 - 74197600 Metazoa_SRP misc_RNA 2 -
74173796 - 74173900 RNU6-975P snRNA 1 -
74186781 - 74186865 AL603910.1 miRNA 2 -
74228655 - 74228951 EEF1A1 protein_coding 1975 -
Помимо генов, прочтения легли на малые некодирующие РНК и антисмысловые РНК. Ген EEF1A1 кодирует Elongation factor 1-alpha 1. Этот белок способствует GTP-зависимому связыванию аминоацил-тРНК с А-сайтом рибосомы во время биосинтеза. В комплексе с PARP1 и TXK выступает в роли фактора клеточно-специфичной транскрипции T хелпера 1 (Th1) и связывает промотер IFN-gamma, напрямую регулируя транскрипцию и таким образом играет важную роль в производстве Th1 цитокина. Последовательность содержит 8 экзонов и 7 интронов.

Дополнительные задания по Bedtools

1. Получите из файла в выравниванием файл с чтениями в формате fastq
bedtools bamtofastq -i align1.bam -fq align11.fastq
2. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов.
bedtools getfasta -fi chr13.fasta -bed one.bed > one.fasta
3. Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов. Какова длина хромосомы в нуклеотидах? Сколько в результате получилось интервалов?
bedtools makewindows -g chr6.txt -w 1000000 > chr6split.txt
Длина хромосомы 171115067. Получилось 172 фрагмента.