Анализ транскриптомов


Что было сделано:


Задание 1.

Были даны файлы с чтениями. Взяла первую биологическую реплику. Ниже приведен результат в виде картинки. Ссылка на html-страницу здесь.

chr4.1_fastqc
Команда Описание
fastqc chr4.1.fastq проводит контроль качества чтений

Задание 2.

При проведении картирования чтений нужно было сделать ту же самую процедуру с hisat2, но убрать при этом один из параметров. Убран парраметр --no-spliced-alignment, так как в данном случае рассматривается зрелая РНК, в которой рядом могут находиться участки, которые изначально не были соседними.

Команда Описание
hisat2-build chr4.fasta chr4
Индексация референсной последовательности (можно было не использовать, т.к. использовались те же индексные файлы, что и при картировании экзомного секвенирования )
hisat2 -x chr4 -U chr4.1.fastq -S chr4.1_sam.sam --no-softclip
Выравнивание чтений и референса в формате .sam, запуск hisat2 с параметром --no-softclip и сохранение результатов в отдельном файле

Выдача команды hisat2:

	2735 reads; of these:
	  2735 (100.00%) were unpaired; of these:
	    72 (2.63%) aligned 0 times
	    2663 (97.37%) aligned exactly 1 time
	    0 (0.00%) aligned >1 times
	97.37% overall alignment rate

Задание 3.

Команда Описание
samtools view chr4.1_sam.sam -b >> chr4.1_bam.bam
Перевод выравнивания чтений с референсом в бинарный формат .bam с помощью команды view пакета samtools
samtools sort chr4.1_sam.sam chr4.1_bam2
Сортировка выравнивания чтений с референсом по координате в референсе начала чтения
samtools index chr4.1_bam2.bam
Индексирование отсортированного .bam файла
samtools idxstats chr4.1_bam2.bam > chr4.1.txt
Количество откартированных чтений

Задание 4.

Команда (опция) Описание
htseq-count
принимает один/более файлов выравниваний в формате .sam или .bam и файл особенностей в формате .gff. В результате для каждой фичи выдаёт количество ридов, откартированных на неё
-s {yes,no,reverse}, --stranded {yes,no,reverse}
Проверяет, являются ли данные анализа специфичными для конкретной цепи, (по умолчанию yes), 'reverse' означает 'yes' с обратной интерпретацией цепей
-i IDATTR, --idattr IDATTR
GFF атрибут, используется как feature ID (default, suitable for Ensembl GTF files: gene_id)
-f {sam,bam}, --format {sam,bam}
Формат принимаемого файла, по умолчанию .bam
-m {union,intersection-strict,intersection-nonempty}, --mode {union,intersection-strict,intersection-nonempty}
опция для перекрывающихся чтений, по умолчанию union
htseq-count -s no -f bam chr4.1_bam2.bam -m intersection-nonempty -i gene_id /nfs/srv/databases/ngs/spyro/gencode.v19.chr_patch_hapl_scaff.annotation.gtf > chr4.1_htseq-count.out
Kоличество ридов, выровненных с разными участками референса: -s no входные данные необязательно были с одной цепи; -m intersection-nonempty пересечение только не пустых feature

Задание 5.

Команда Описание
grep -wv 0 chr4.1_htseq-count.out Поиск ненулевых строк

Выдача команды:

	ENSG00000071127.12      1884
	ENSG00000223086.1       1
	ENSG00000261490.1       2
	__no_feature    776
	__not_aligned   72

1884 рида легли в основу WDR1 (ENSG00000071127.12). Этот ген кодирует белок, содержащий 9 повторов WD. WD-повторы представляют собой приблизительно 30-40-аминокислотные домены, содержащие несколько консервативных остатков, в основном, включая trp-asp на С-конце. Домены WD участвуют в межбелковых взаимодействиях. Кодированный белок может помочь вызвать разборку актиновых филаментов. Посмотреть подробнее об этом гене можно здесь.

776 ридов не легли в границы генов, а 72 не откартировались.

up

Правильный CSS!