Анализ транскриптомов; Bedtools


1) Анализ качества чтений.

Взят файлы с одноконцевыми чтениями в формате fastq 20 хромосомы (первая реплика). Также использована разметка человеческого генома по версии Gencode19 для сборки hg19.
Анализ чтений с помощью программы FastQC.
Исходные данные:chr20.1.fastq
Команды: fastqc chr20.1.fastq
Результат:chr20.1.fastqc.html

В данном случае очистка не требуется, так как качество ридов достаточно высокое (см изображение)
Кол-во ридов - 3565, длина 41-51, %GC - 55%


2)картирование чтений
Подключение HISAT2
Команды: export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5


Индексирование референсной последовательности
Исходные данные:chr20.fasta
Команды: hisat2-build chr20.fasta chr20 > hisat2-build.log
Выравнивание прочтений и референса в формате .sam.
Команды: hisat2 --no-spliced-alignment --no-softclip -x chr20 -U chr20.1.fastq -S align.sam
Анализ выравнивания
Команды: samtools view align.sam -b -o align.bam
samtools sort align.bam -T file.txt -o sort.bam
samtools index sort.bam

Из команды HISAT2 была убрана опция '--no-spliced-alignment'.
3)Анализ выравнивания.
3565 reads; of these:
  3565 (100.00%) were unpaired; of these:
    47 (1.32%) aligned 0 times
    3507 (98.37%) aligned exactly 1 time
    11 (0.31%) aligned >1 times
98.68% overall alignment rate

3507 чтения были выровнены 1 раз, 47 - 0 раз, 11 больше 1 раза.

4)Подсчет чтений.

Данное задание относится к практикуму 13 (Bedtools)

Перевод из формата bam в формат bed
Команды: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i sort.bam > chr20.bed
Файл, с покрытиями ридов и генами, попавшими в покрытия
Команды: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a
/P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b chr20.bed -c > ex4.bed

сортировка
Команды: sort -k 6 -r ex4.bed > ex42.bed

удаление нулевых покрытий
Команды: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a
/P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b ex42.bed -u > last.bed

4)Анализ резльтатов.

координатыдлинанаправление цепи описаниегенчисло ридов, в которых встречается
2447858 - 2447961 103 - protein_coding RP4-734P14.4 8
2443608 - 2443683 75 - snoRNA SNORD119 3
2442736 - 2443264 529 - protein_coding SNRPB 79
Из трёх обнаруженных генов, подробнее рассмотрим последний. SNRPB - белок, закодированный этим геном, является одним из нескольких ядерных белков, которые встречаются среди малых частиц рибонуклеопротеина (snRNP) U1, U2, U4/U6. Эти snRNPs участвуют в пре-мРНК сплайсинге. Автоантитела у больных системной красной волчанкой часто распознают эпитопы на кодируемый белок. Для данного гена характерны два варианта транскриптов кодирующих различные изоформы (B и B').
4)Дополнительные (нет) задачи по bedtools.

1)Получите из файла в выравниванием файл с чтениями в формате fastq
Команды: bedtools bamtofastq -i last.bam -fq last.fq

2)Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов.
Команды: bedtools getfasta -fi chr20.fasta -bed last.bed > ex2chr20.fasta

5)Наберите из Вашей хромосомы 1000 случайных фрагментов по 200 нуклеотидов.
Команды: randomBed -g chr20.fasta -l 200 -n 1000 > chr20random.bed


Источники:
[1] Презентация к 12 занятию.
[2] Презентация к 13 занятию.


© Матвеев Андрей, 2017 AD