Обязательное | вход | команда | что делает | параметры | выход |
1) достать из файла с выравниванием координаты генов | out_trans_numer.bam (картированные и перенумерованные риды) | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i out_trans_numer.bam >> numer.bed | переводит из бинарного .bam формата в читаемый .bed | -i вбивается bam файл с картированием | numer.bed (файл с координатами ридов) |
2) пересечь эти координаты с разметкой генов | gencode.genes.bed (разметка генов по версии genecode) numer.bed (картированные риды и перенумерованные) | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -c -a gencode.genes.bed -b numer.bed >> intersect.bed | смотрит пересечение двух разметок и считает количества пересечений | -с обозначает подсчитай, -а то по кому выравниваем -b тот кого выравниваем | intersect.bed |
3) выбрать строки где попали риды | intersect.bed | python script2.py intersect.bed >> genes.bed | питон выбирает строки где не ноль стоит в конце | - | genes.bed |
дополнительно | |||||
1) Получите из файла в выравниванием файл с чтениями в формате fastq | out_trans_numer.bam (картированные и перенумерованные риды) | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtofastq -i out_trans_numer.bam -fq bamtofastq.fastq | переводит .bam в .fastq | -i входной бам файл -fq имя выходного | bamtofastq.fastq |
2)Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов. | chr9.fasta (fasta последовательность хромосомы) test.bed (файл с одной строкой bed формата с координатами нужного гена) | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools getfasta -name -fi chr9.fasta -bed test.bed >> getfasta.fasta | вырезает из последовательности последовательность с данными координатами и записывает их в новый фаста файл | -fi файл фаста откуда вырезают кусок -bed файл где есть координаты по которым режут -name берет из bed еще и название для последовательности | getfasta.fasta (последовательность чьи координаты указаны) |
3) Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов. Какова длина хромосомы в нуклеотидах (141 213 431) Сколько в результате получилось интервалов(142) | hg19.txt (файл где записана длиина хромосомы номер 9) | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools makewindows -g hg19.txt -w 1000000 >> makewindows.bed | разбивает на окна исходя из длинны хромосомы | -g txt файл который содержит длины хромосом -w длинна окна на которые нужно разбить -n вместо w разбивает на заданное количество окон | makewindows.bed (в файле пропсаны в формате bed координаты окон) |
Абсолютно все (137) покрытые гены - это гены SET белок-кодирующие(SET nuclear proto-oncogene [ Homo sapiens (human) ]). Покрытие везде разное, но среднее число ридов вошедшее в рамки =2294 медиана покрытия =1137. Описание этого гена: размер гена 12964. Координаты 128683432..128696396. Функция: "The protein encoded by this gene inhibits acetylation of nucleosomes, especially histone H4, by histone acetylases (HAT). This inhibition is most likely accomplished by masking histone lysines from being acetylated, and the consequence is to silence HAT-dependent transcription. The encoded protein is part of a complex localized to the endoplasmic reticulum but is found in the nucleus and inhibits apoptosis following attack by cytotoxic T lymphocytes. This protein can also enhance DNA replication of the adenovirus genome. Several transcript variants encoding different isoforms have been found for this gene." количество 8 экзонов и 8 интронов. направление: на прямой цепи
Таблица с описанием выравнивания генов.
См. общую таблицу команд.