Навигация по сайту
На Главную 1 семестр 2 семестр 3 семестр Здесь будут другие семестры Обо мне Официальный сайт ФББ МГУ
fastqc chr3.1.fastq | Анализ качества чтений |
hisat2 --no-softclip -x ../chr3 -U chr3.1.fastq -S chr3.1c.sam | Картирование чтений на референсный геном. В этот раз нет функции no-spliced-alignment из-за интронов. |
samtools view -b -o chr3.1c.bam chr3.1c.sam | Перевод в bam |
samtools sort -o chr3.1s.bam -O bam -T t chr3.1c.bam | Сортировка по координатам |
samtools index chr3.1s.bam | Индексирование |
htseq-count -f bam -s no chr3.1s.bam gencode.v19.chr_patch_hapl_scaff.annotation.gtf >> itlog.txt | Считает, сколько ридов мапнулось на каждый участок генома |
Сначала было проанализированно качество ридов при помощи FastQC. Чтения не нуждались в дополнительной очистке.
Далее чтения были картированы на референсный геном из предыдущего практикума. В этот раз не использовалась функция no-spliced-alignment, т.к. секвенированые РНК вероятно сплайсировались.
Выдача Hisat221211 reads; of these: 21211 (100.00%) were unpaired; of these: 155 (0.73%) aligned 0 times 21035 (99.17%) aligned exactly 1 time 21 (0.10%) aligned >1 times 99.27% overall alignment rate
-f | формат файла, по умолчанию sam, меням его на bam |
-s | цепь, из которой рид, у нас она неизвестна, что не соответствует значению по умолчанию |
-i | GFF атрибут, используемый для идентификации гена, нам подходит значение по умолчанию |
-m | режим обработки чтений, мапированных на несколько генов, по умолчанию — объединение. |
ENSG00000072274.8 20550 ENSG00000252174.1 4 __no_feature 481 __not_aligned 155 __alignment_not_unique 42
155 чтений не картировались, 481 картировались вне известных участков, 42 имеют больше одного выравнивания. Остальные картировались на два учаска: ENSG00000072274.8 и ENSG00000252174.1
ENSG00000072274 кодирует белок TFRC, клеточный рецептор, необходимый для поглощения ионов железа, необходим для эритропоэза и неврологического развития
ИсточникENSG00000252174 кодирует малую ядерную РНК (snRNA U7)
Источник