Практикум 12.Анализ транскриптомов.

Часть 1


Использовался файл с одноконцевым чтением (chr13.1.fastq) Был сделан контроль качества чтений с помощью программы FastQC.
Команда: fastqc chr13.1.fastq

Было получено изображение (Рис.1)


(Рис.1)

Очистку делать не пришлось так как качество очень хорошее.

Часть 2

Картирование чтений


При картировании использовалась уже проиндексированная в практикуме 11 референская последовательность, полученная при помощи команды (hisat2-build). Далее было построено выравнивание прочтений и референса в формате .sam, без параметра --no-spliced-alignment , так как оно запрещает разрывы. В случае транскриптома необходимо их разрешить, так как транскрипты могут находится в разных участках генома, а в файле они лежат все подряд.
Команда Функция
/nfs/srv/databases/ngs/zhenya147/his$ hisat2 -x chr13 -U chr13.1.fastq --no-softclip > transcr.sam Построение выравнивания прочтений и референса






На выходе из 12985 ридов 12859 было откартировано на геном. 122 - нет (0.94%)

Часть 3

Анализ выравнивания


Команда Функция
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5 Экспорт hisat2
/nfs/srv/databases/ngs/zhenya147/his$ samtools view transcr.sam -b -o transcr.bam Перевод выравнивания чтений с референсом в бинарный формат .bam
samtools sort -T /tmp/transcr.sorted -o transcr.sorted.bam transcr.bam Сортировка выпавнивания по координате в референсе начала чтения
samtools index transcr.sorted.bam Индексирование отсортированного .bam файла











Подсчет чтений

Для подсчета чтений был использован пакет программ Bedtools Сначала .bam файл был преведен в .bed (в файле прописаны координаты генов)
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i transcr.sorted.bam > tran1.bed

Далее координаты были пересечены с разметкой генов.
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a gencode.genes.bed -b tran1.bed -c > combo.bed
(также для удобства данные были отсортированы)
sort -k 6 -r combo.bed > combo1.bed
Все прочтения легли на участки кодирующие малые ядрышковые РНК, антисмысловые РНК, а также ген TRT1.

Этот ген кодирует белок, который осуществляет регуляцию клеточного роста.Данный белок также участвует в апоптозе. Он связывает и стабилизирует микротрубочки. Известно, что этот ген играет роль в канцерогенезе и активируется в некоторых раковых клетках. Координаты:45333471..45341284 Располагается на комплементарной цепи. Содержит 6 экзонов и 5 интронов.

Часть 4 (практикум 13)

1) Получение файла в выравниванием файл с чтениями в формате fastq
Команда: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtofastq -i transcr.bam -fq transcr.fq
-i задает файл с чтениями, -fq файл в формате fastq
2) Получение файла нуклеотидной последовательности в формате fasta для одного из покрытий
Команда: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools getfasta -fi chr13.fasta -bed one.bed > one.fasta
-fi задает файл fasta с полной последовательностью, -bed - задает файл с прочтением
4)Объединение чтений в кластеры
Команда: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools cluster -i tran1.bed -s > cluster.bed
-i задает файл с чтениями, -s - объединяет только те чтения, которые относятся к одной цепи
В итоге получился 21 кластер
8) Получить координаты прочтений сдвинутые на 500 нуклеотидов
Команда:/P/y14/term3/block4/SNP/bedtools2/bin/bedtools shift -i one.bed -g chr13.genome -s 500
-i задает файл с прочтением -g файл с длинной хромосомы. -s длина сдвига