Практикум #12. Анализ транскриптомов. Bedtools.

Ход работы

37_R_bad

Рис.1 Неочищенные чтения

37_R_bad

Рис.2 Очищенные чтения

Отметим, что очистка никак не повлияла на качество чтений (разве что были удалены 59 ридов, видимо из-за параметра MINLEN:50) После картирования мы получили, что 99.17% чтений выравнялись на референс. Хоть в моих чтениях присутствуют риды, которые не легли на референс, а так же 21 рид, которые легли несколько раз, по-моему качество чтения хорошее. Кстати, в команде hisat2 был убран параметр --no-spliced-alignment, т.к. мы работаем с РНК, которая может быть задействована в сплайсинге, а значит выравнивания могут разрываться (участки перестанавливаться). Опции htseq-count: -f указывает формат входного файла, опция -s говорит, должна ли программа учитывать цепь, -i - как программа назовет гены, -m - как программа будет реагировать на разное наложение рида на ген/гены. Выдача grep:

ENSG00000072274.8	20495
ENSG00000252174.1	4
__no_feature	478
__not_aligned	154
__alignment_not_unique	42
Из этого можно сделать выводы: 478 ридов не легли на границы генов, 42 чтения из-за -m union пересекаются сразу с несколькими генами, а 154 рида вообще не выровнились на референс. Помимо этого видно, что на ген ENSG00000072274.8 (TFR1 или ген рецептора трансферина человека), который учавствует в процессе эндоцитоза ионов железа из трансферрина в цитоплазму клетки, легло аж 20495 ридов. 4 же рида пересекаются с неэкспрессирующимся псевдогеном.