Практикум 12.Анализ транскриптомов.
Часть 1
Использовался файл с одноконцевым чтением (chr13.1.fastq)
Был сделан контроль качества чтений с помощью программы FastQC.
Команда: fastqc chr13.1.fastq
Было получено изображение (Рис.1)
(Рис.1)
Очистку делать не пришлось так как качество очень хорошее.
Часть 2
Картирование чтений
При картировании использовалась уже проиндексированная в практикуме 11 референская последовательность,
полученная при помощи команды (hisat2-build).
Далее было построено выравнивание прочтений и референса в формате .sam, без параметра --no-spliced-alignment , так как
оно запрещает разрывы. В случае транскриптома необходимо их разрешить, так как транскрипты могут находится в разных участках генома,
а в файле они лежат все подряд.
Команда |
Функция |
/nfs/srv/databases/ngs/zhenya147/his$ hisat2 -x chr13 -U chr13.1.fastq --no-softclip > transcr.sam |
Построение выравнивания прочтений и референса |
На выходе из 12985 ридов 12859 было откартировано на геном. 122 - нет (0.94%)
Часть 3
Анализ выравнивания
Команда |
Функция |
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5 |
Экспорт hisat2 |
/nfs/srv/databases/ngs/zhenya147/his$ samtools view transcr.sam -b -o transcr.bam |
Перевод выравнивания чтений с референсом в бинарный формат .bam |
samtools sort -T /tmp/transcr.sorted -o transcr.sorted.bam transcr.bam |
Сортировка выпавнивания по координате в референсе начала чтения |
samtools index transcr.sorted.bam |
Индексирование отсортированного .bam файла |
Подсчет чтений
Для подсчета чтений был использован пакет программ Bedtools
Сначала .bam файл был преведен в .bed (в файле прописаны координаты генов)
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i transcr.sorted.bam > tran1.bed
Далее координаты были пересечены с разметкой генов.
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a gencode.genes.bed -b tran1.bed -c > combo.bed
(также для удобства данные были отсортированы)
sort -k 6 -r combo.bed > combo1.bed
Все прочтения легли на участки кодирующие малые ядрышковые РНК, антисмысловые РНК, а также ген TRT1.
Этот ген кодирует белок, который осуществляет регуляцию клеточного роста.Данный белок также участвует в апоптозе.
Он связывает и стабилизирует микротрубочки.
Известно, что этот ген играет роль в канцерогенезе и активируется в некоторых раковых клетках.
Координаты:45333471..45341284 Располагается на комплементарной цепи. Содержит 6 экзонов и 5 интронов.
Часть 4 (практикум 13)
1) Получение файла в выравниванием файл с чтениями в формате fastq
Команда: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtofastq -i transcr.bam -fq transcr.fq
-i задает файл с чтениями, -fq файл в формате fastq
2) Получение файла нуклеотидной последовательности в формате fasta для одного из покрытий
Команда: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools getfasta -fi chr13.fasta -bed one.bed > one.fasta
-fi задает файл fasta с полной последовательностью, -bed - задает файл с прочтением
4)Объединение чтений в кластеры
Команда: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools cluster -i tran1.bed -s > cluster.bed
-i задает файл с чтениями, -s - объединяет только те чтения, которые относятся к одной цепи
В итоге получился 21 кластер
8) Получить координаты прочтений сдвинутые на 500 нуклеотидов
Команда:/P/y14/term3/block4/SNP/bedtools2/bin/bedtools shift -i one.bed -g chr13.genome -s 500
-i задает файл с прочтением -g файл с длинной хромосомы. -s длина сдвига