1. Анализ глубины покрытия генов чтениями (из практикума 12)

-таблица команд:

КомандаФункция
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i chr5_al.bam > chr5_al.bedСоздает файл в .bed формате
/nfs/srv/databases/ngs/marinanenart/pr13$ /P/y14/term3/block4/SNP/bedtools2/bi n/bedtools intersect -c -a ../../../../../../P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b chr5_al .bed > chr5_cov.bedИспользуется опция -c, создается файл, где со списком генов идут их покрытия (количества совпадений с chr5_1.bed)
/nfs/srv/databases/ngs/marinanenart/pr13$ /P/y14/term3/block4/SNP/bedtools2/bi n/bedtools intersect -a ../../../../../../P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b chr5_al.be d -u > chr5_cov_u.bedИспользуется опция -u, создается файл, содержащий строки лишь с генами, имеющими ненулевое покрытие
/nfs/srv/databases/ngs/marinanenart/pr13$ /P/y14/term3/block4/SNP/bedtools2/bi n/bedtools intersect -wa -wb -a ../../../../../../P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b ch r5_al.bed > chr5_cov_ww.bedИспользуются опции -wa и -wb, создается файл, где любые перекрывающиеся участки выводятся одной строкой, содержащей названия этих участков в файле chr5_1.bed и в разметке соответственно

-таблица с информацией о найденных генах:

ГенПокрытиеНаправлениеДлинаКоординатыКоличество экзонов
FAM172A1962-49656993615130..9411169923
NPM1P27975-129793682519..93683816-
NPM1453648+23252171387648..17141090011

Что получилось:

- как видно из таблицы, были найдены три гена:
1) FAM172A- экспрессируется во многих тканях; его белки, например Cotranscriptional regulator FAM172A (UniProtKB - Q8WUF8 (F172A_HUMAN)) учавствуют в процессинге мРНК
2)NPM1P27- псевдоген
3)NPM1- белок nucleophosmin, кодируемый этим геном, учавствует в процессах удвоения центриолей, транспорте других белков и клеточной пролиферации. Мутации в этом гене ассоциированы с острым миелоидным лейкозом.

-из выдачи команды с опцией '-wa и -wb' было установлено, что гены FAM172A и NPM1P27 имеют одинаковое направление чтения, а NPM1 - обратное (+/- в последнем столбце файла), означает, что гены FAM172A и NPM1P27 имеют обратное прочтение, а ген NPM1- прямое (идея была поддтверждена информацией из NCBI).

- покрытия генов считались с помощью поиска строк, содержащих нужное слово, в файле, полученном с опциями -wa -wb. Однако при таком подсчете случились сложности с геном NPM1, так как в самой разметке имеются его повторы. Например, в файле выдачи с опцией '-c' ген FAM172A прописан множество раз, но лишь 6 строк с этим геном имеют ровно 327 совпадений с chr5_1.bed (тем более эти строки имеют перекрывающиеся участки), а у NPM1 числа в строках отличаются.

2. Команды Bedtools

-1) Получите из файла c выравниванием файл с чтениями в формате fastq
команда: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtofastq -i chr5_al.bam -fq chr5.fq

-2) Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов
команда: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools getfasta -fi chr5.fasta -bed str.bed > read.fasta
* в файле записана координата: chr5 92953775 93447404

-3) Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов. Какова длина хромосомы в нуклеотидах? Сколько в результате получилось интервалов?
команда: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools makewindows -g chr5.gen -w 1000000 > int.bed
*файл chr5.gen содержит строку 'chr5 181538259' (длина хромосомы)
- в выходном файле содержится 182 строки, т.е. получилось 182 интервала


© Nenartovich Marina 2017