Были использованны совершенно те же команды, что и в предыдущем праке. Полученную информацию вы можете увидеть здесь. Хочется отметить, что в результате обработки остаётся 17398 ридов. Параметры использованные в предыдущем праке кажутся оптимальными для увеличения качества.
В ходе картирования было откартированно 16356 ридов. Для нормального картирования был убран параметр --no-spliced-alignment, запрещавший разрывы в выравнивании, так как в транскриптоме разрывы быть, соответственно, могут. В остальном команды совпадают с предыдущим праком.
Получение файла с ридами (формат fastq) из файла с выравниваниями. На выход получаем необходимый нам файл в формате fq.
>bedtools bamtofastq -i align_sorted.bam -fq reads_from_align.fqПолучение файла с нуклеотидной последовательностью (.fasta) для одного из покрытых чтениями генов.
>bedtools getfasta -fi chr8.fasta -bed reads8.bed > nucl8.fastaОбъединение чтений в кластеры
>bedtools cluster -i reads8.bed > clusters8.bedФайлы были переведены в необходимый формат
>bamtobed -i align_sorted.bam > chr8.bedПосле этого было произведено пересечение нашего файли и файла со сборкой генома. Параметр -а - то, с чем пересекать, -b - то, что пересекать, -с - вывод.
>bedtools intersect -a gencode.genes.bed -b chr8.bed -c > chr8_2.bedВ ходе анализа выходного файла было выявленно, что мои риды принадлежат совершенно разным РНК. Большинство из них кодирующие. Но некоторые принадлежат si, mi, sn, r и некоторым другим более мелким видам РНК. Также некоторые участки принадлежат интронам. Смысла описывать каждый ген, на который попали чтения, не вижу, так как этих генов довольно много. Интересно, что чтениями крайне хорошо покрыты гены семейства белков SLC - мембранных транспортых белков. 1790 чтений покрывают белки этого семейства. При этом ни одно из чтений не попадает в интронную область, что говорито о полном сплайсинге для данного семейства.
bedtools annotate -i chr8.bed -files gencode.genes.bed -both > anno.bedОписанной командой был получен файл с данными покрытия генов ридами.