Анализ транскриптомов

Подготовка

Были использованны совершенно те же команды, что и в предыдущем праке. Полученную информацию вы можете увидеть здесь. Хочется отметить, что в результате обработки остаётся 17398 ридов. Параметры использованные в предыдущем праке кажутся оптимальными для увеличения качества.

Картирование

В ходе картирования было откартированно 16356 ридов. Для нормального картирования был убран параметр --no-spliced-alignment, запрещавший разрывы в выравнивании, так как в транскриптоме разрывы быть, соответственно, могут. В остальном команды совпадают с предыдущим праком.

Игры с bedtool

1 задача

Получение файла с ридами (формат fastq) из файла с выравниваниями. На выход получаем необходимый нам файл в формате fq.

>bedtools bamtofastq -i align_sorted.bam -fq reads_from_align.fq

2 задача

Получение файла с нуклеотидной последовательностью (.fasta) для одного из покрытых чтениями генов.

>bedtools getfasta -fi chr8.fasta -bed reads8.bed > nucl8.fasta

4 задача

Объединение чтений в кластеры

>bedtools cluster -i reads8.bed > clusters8.bed

Анализ

Файлы были переведены в необходимый формат

>bamtobed -i align_sorted.bam > chr8.bed

После этого было произведено пересечение нашего файли и файла со сборкой генома. Параметр -а - то, с чем пересекать, -b - то, что пересекать, -с - вывод.

>bedtools intersect -a gencode.genes.bed -b chr8.bed -c > chr8_2.bed

В ходе анализа выходного файла было выявленно, что мои риды принадлежат совершенно разным РНК. Большинство из них кодирующие. Но некоторые принадлежат si, mi, sn, r и некоторым другим более мелким видам РНК. Также некоторые участки принадлежат интронам. Смысла описывать каждый ген, на который попали чтения, не вижу, так как этих генов довольно много. Интересно, что чтениями крайне хорошо покрыты гены семейства белков SLC - мембранных транспортых белков. 1790 чтений покрывают белки этого семейства. При этом ни одно из чтений не попадает в интронную область, что говорито о полном сплайсинге для данного семейства.

bedtools annotate -i chr8.bed -files gencode.genes.bed -both > anno.bed

Описанной командой был получен файл с данными покрытия генов ридами.