Пакет BEDTOOLS - набор программ, позволяющий с помощью простых операций проводить глубокий
анализ генома.
Вся работа выполнялась тут: /nfs/srv/databases/ngs/catherine.nesterenko/pr12
Входной файл |
Выходной файл |
Команда |
Описание |
sorted.bam |
apl.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools
bamtobed -i sorted.bam >> alp.bed |
Меняем формат отсортированного файла с выравниванием с .bam в .bed. -i - указывает на имя
входного файла, формат которого мы меняем. |
alp.bed |
parts.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -u
-a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b alp.bed >> parts.bed |
Ищем координаты пересечений чтений с поледовательностью генома. -u позволяет записать в файл
только ненулевые пересечения, -a - указывает на файл 1, в нашем случае с разметкой, -b - файл 2, файл
с ридами. |
parts.bed, alp.bed |
count.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools
intersect -c -a parts.bed -b alp.bed >> count.bed |
-с - считаем пересечения из предыдущего пункта. -a -b показывают имена 1-го и 2-го файлов. |
parts.bed |
parts-sorted.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools
sort -i parts.bed >> parts-sorted.bed |
Сортируем найденные пересечения в порядке расположения на геноме. -i - указывает на имя
входного файла |
parts-sorted.bed |
merged.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools
merge -c 5 -o distinct -i parts-sorted.bed >> merged.bed |
Собираем все перекрытия и граничные участки в единый интервал.
-с - номер столбца, для которого применены операции с помощью -о. После -о может стоть любая
операция, которую мы хотим применить к столбцу. В нашем случае -c 5 означает, что мы работаем с
именами генов. -o distinct означает, что берутся только уникальные значения названий генов
для объединенных кусочков. |
merged.bed |
deep.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools coverage
-a merged.bed -b alp.bed >>deep.bed |
Считаем глубину покрытия генов нашими ридами. -a - для файла, покрытие которого ищем,
-b - для файла, который содержит кусочки, которые накладываются на интервалы из первого файла. |