Анализ транскриптомов

Задача: картировать чтения, полученные в результате секвенирования транскриптома (человек, версия сборки генома hg19)

Часть I: подготовка чтений

0. Создание рабочей директории.
В директории /nfs/srv/databases/ngs/ создана директория e.mironova (ещё в предыдущей работе), для этой работы в этой директории создана папка pr12. В неё скопированы файлы с ридами (chr21.1.fastq и chr21.2.fastq - это 2 биологические реплики) и разметка человеческого генома по версии Gencode19 для сборки hg19. Разметка в формате .gtf лежит на kodomo в директории /P/y14/term3/block4/SNP/rnaseq_reads (gff и gtf формат - это почти одно и то же). В дальнейшем я буду работать с первой репликой.

1. Анализ качества чтений.
Контроль качества чтений с помощью программы FastQC. На выходе получена html страница с отчётом. Пример выдачи этой программы вы можете увидеть в пункте 2.
Для дополнительного пояснения выдачи, см. предыдущую работу этот же пункт.

Рис. 1. Контроль качества ридов

Все интерквантильные размахи качества позиций в ридах и значения качества в зелёной области (самый доверительный интервал). Итого качество прочтения нуклеотидов во всех позициях высокое, поэтому очистка чтений, как в предыдущей работе, не потребуется.

Часть II: картирование чтений

2. Картирование чтений
Откартировать очищенные чтения с помощью программы Hisat2.
Этапы:
Сначала необходимо проиндексировать референсную последовательность; использованы те же индексные файлы, что и при картировании экзомного секвенирования (предыдущая работа).

Некоторые параметры hisat2:
-х – путь к индексу
-U – путь к чтениям
--no-softclip – запрет подрезания чтений
--no-spliced-alignment – картирование без разрывов

В этот раз не использую параметр --no-spliced-alignment, который производит картирование без разрывов. В этой работе я провожу транскриптомный анализ, а это аназин РНК, которые могли перегруппироваться по сравнению с референсом ДНК в ходе процессинга (сплайсинг).
Затем построить выравнивание прочтений и референса в формате .sam. Запустите hisat2 с параметром --no-softclip
Сохранить вывод программы hisat2 в отдельный файл (вывод можно увидеть ниже)

11221 reads; of these: 11221 (100.00%) were unpaired; of these: 281 (2.50%) aligned 0 times 10795 (96.20%) aligned exactly 1 time 145 (1.29%) aligned >1 times 97.50% overall alignment rate

3. Анализ выравнивания
Переведите выравнивание чтений с референсом в бинарный формат .bam. Используйте пакет samtools, команда view: samtools view; Руководство по samtools.
Отсортируйте выравнивание чтений с референсом (получившийся после картирования .bam файл) по координате в референсе начала чтения; команда samtools sort;
Проиндексируйте отсортированный .bam файл командой samtools index
Выясните, сколько чтений откартировано на геном; загляните в вывод программы Hisat2. Видим, что 281 рид не откартировался, 10795 встретились 1 раз, а 145 больше 1 раза.
В .sam файле также можно увидеть:
SRR2776256.15395984 – ID чтения
chr12 9822304 - хромосома и координата, куда «легло» чтение
100M – СIGAR: сжато кодирует информацию о выравнивании чтения
NM:i – расстояние до генома
NH:I – количество картирований для данного чтения

Часть III: Анализ bedtools

4. Подсчет чтений
Исрользуем пакет BEDTOOLS - инструмент для работы с геномными интервалами, в котором олее 35 функций + параметры
Для начала нужно перевести bam файл в формат bed. Для этого используем функцию bamtobed. В файле можем увидеть таблицу: chr, start, end, name, score, + или - цепь
Затем используем функцию intersect, задача которой наложение соответствий между двумя файлами функций. Команды можно увидеть в таблице в конце страницы

5. Анализ результатов

Таблица 1. Гены из 21 хромосомы, найденные в транскриптоме

Ген	Координаты	Длина	Замечания	Чтений на ген
USP16	30396950-30426809	29859	Этот ген кодирует дебеквивитирующий фермент, который фосфорилируется в начале митоза, а затем дефосфорилируется при метафазном / анафазном переходе. Описаны варианты альтернативного сплайсинга, кодирующие различные изоформы. Содержит 20 экзонов. + цепь	14
CCT8	30428126-30446118	Длина	Этот ген кодирует тета-субъединицу 8 TCP1 шаперонина CCT, который может участвовать в транспорте и сборке вновь синтезированных белков. Альтернативное сращивание приводит к множественным вариантам транскрипции этого гена. Псевдоген, связанный с этим геном, расположен на хромосоме 1. Содержит 16 экзонов. - цепь	188

Но не все чтения легли в границы генов. В конечном файле имеем chr21 30430394 30432416 sense_intronic AF129075.5, на который приходится 4 чтения, но ген CCT8 охватывает эти координаты, следовательно, можно предположить, что это интронная область, которая была синтезирована по матрице ДНК. Возможно, что данная РНК еще не подверглась сплайсингу.

Таблица 2. Команды, выполненные в течение практикума

Команда	Функция	Выходные файлы
1. Анализ качества чтений
fastqc chr21.1.fastq	Вызов программы FastQC, которая контролирует качество чтений	chr21.1_fastqc.html (отчет о программе в виде html файла)
2. Картирование чтений
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5	Пакет программ, которые в данной папке, теперь доступны к вызову в putty	-
hisat2-build chr21.fasta chr21	Индексирует референсную последовательность	Индексированный chr21.fasta
hisat2 --no-softclip -x chr21 -U chr21.1.fastq -S result.sam	Выравнивание референсной последовательности и ридов	result.sam
3. Анализ выравнивания
samtools view result.sam -b -o result.bam	Перевод выравнивания чтений с референсом в бинарный формат .bam	result.bam
samtools sort result.bam -T a.txt -o sort_result.bam	Сортировка выравнивания ридов с референсом (.bam файл) по координате в референсе начала чтения	sort_result.bam
samtools index sort_result.bam	Индексировать отсортированный .bam файл	Индексированный sort_result.bam
4. Подсчет чтений
export PATH=${PATH}:/P/y14/term3/block4/SNP/bedtools2/bin	Пакет программ, которые в данной папке, теперь доступны к вызову в putty	-
bedtools bamtobed -i sort_result.bam > result1.bed	Переводит файл формата .bam в формат .bed	result1.bed
bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b result1.bed -u > result2.bed	Пересекает разметку генов с нашими чтениями. Параметр -u запсиывает в выходной файл только то, что хотя бы раз пересеклось	result2.bed

Дополнительные задачи по bedtools

Таблица 3. Команды bedtools

Команда	Задача	Дополнительные параметры	Выходные файлы
bedtools bamtofastq -i result.bam -fq result.fq	1. Получите из файла с выравниванием файл с чтениями в формате fastq	-i - входной файл -fq - выходной файл	result.fq - fastq-файл
bedtools getfasta -fi chr21.fasta -bed Z2.bed > Z2.fasta	2. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов	-fi входной файл FASTA -bed область в BED / GFF / VCF-файлах для извлечения из -fi	Z2.fasta, но во второй строчке все нуклеотиды последовательности, нет переноса
bedtools makewindows -g chr21.txt -w 1000000 > Z3.bed	3. Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов	-g - файл с размером генома -w - интервал разделения	Z3.bed, где приведены интервалы длинной 1000000
bedtools cluster -i result1.bed -d 100 > Z4.bed	4. Объедините Ваши чтения в кластеры	-i - входной файл -d максимальное расстояние между фрагментами, допускаемыми для функций объединения	Z4.bed - содержит столько же строк, сколько исходный файл, но каждому риду дан номер (кластер, к которому он принадлежит)
randomBed -g chr21.txt -l 200 -n 1000 > Z5.bed	5. Наберите из Вашей хромосомы 1000 случайных фрагментов по 200 нуклеотидов	-l - длина сгенерированных интервалов -n - число интервалов -g - файл с размером генома	Z5.bed с нужными фрагментами

Замечания:
2. Содержимое файла Z2.bed:
chr21 30396950 30426809 protein_coding USP16

3. Содержимое chr21.txt (разделено табулятором):
chr 46709983
Это длина хромосомы в нуклеотидах. В итоге получилось 47 интервалов.

Задания на будущее:
6. Получите координаты 3`-области одного из покрытых Вашими чтениями генов длиной в 1000 нуклеотидов.
7. Получите координаты одного из покрытых Вашими чтениями генов, расширенные на 1000 нуклеотидов в обе стороны.
8. Получите координаты одного из покрытых Вашими чтениями генов, сдвинутые на 500 нуклеотидов ближе к началу хромосомы.
9. Получите непересекающиеся фрагменты, соответствующие области, покрытой Вашими чтениями
10. Получите файл с координатами интервалов, покрытых Вашими чтениями, с информацией о покрытии в любом формате.

Анализ транскриптомов применением Bedtools