Bedtools: пакет программ для анализа ридов
Этап первый: подготовительный
На этой странице ниже представлены примеры применения программы bedtools.
Работа включала в себя не только анализ генов и чтений из прошлого практикума ,
но и призвана продемонстрировать несколько решений простых практических задач, не связанных с предыдущим проектом.
Перед началом работы был прописан путь до программы bedtools. Все рабочие файлы лежат в директории /nfs/srv/databases/ngs/solera/pr13, а также и файл с разметкой gencode.genes.bed был перемещён в рабочую директорию.
мануал bedtools для выполнения заданий можете найти по этой ссылке. Поехали!
Анализ генов и перекрывающихся с ними прочтений
Ниже приведён список
Команда | Выходной файл |
PATH=${PATH}/P/y14/term3/block4/SNP/bedtools2/bin | |
bedtools bamtobed -i chr14.1.sorted.bam > chr141.bed
bedtools bamtobed -i chr14.2.sorted.bam > chr142.bed
| перевод отсортированных файлов формата .bam в файлы формата .bed |
bedtools intersect -a gencode.genes.bed -b chr14.1.bed -c > chr14.1.intersect.bed
bedtools intersect -a gencode.genes.bed -b chr14.2.bed -c > chr14.2.intersect.bed | выявление пересечний относительно файла разметки |
bedtools intersect -a gencode.genes.bed -b chr14.2.bed -u > chr142_u_intersect.bed
| то же самое, но теперь только те гены, значение покрытие для которых не равно 0 |
bedtools intersect -wa -wb -a chr141.bed -b gencode.genes.bed > chr14_1_wa_wb.bed
bedtools intersect -wa -wb -a chr141_u_intersect.bed -b gencode.genes.bed > chr14_1_wa_wb.bed |
подсчёт покрытий чтениями |
| |
Примеры применения пакета bedtools
Номер | Задача | Входной файл | Команда | Выходной файл |
1 |
Получить из файла с выравниваением файл.fastq с чтениями |
chr14.1.sorted.bam |
bedtools bamtofastq -i chr14.1.sorted.bam -fq 1.fastq |
1.fastq |
Хозяйке на заметку:
- Флаги:
- -i - исходный файл
- -fq - флаг формата fastq
Номер | Задача | Входной файл | Команда | Выходной файл |
2 |
Получить файл с нуклеотидной последовательностью.fasta для гена, покрытыго чтениями |
chr14.fasta |
bedtools getfasta -fi chr14.fasta -bed hcp.bed -fo hcp.fasta -name -s |
hcp.fasta |
Хозяйке на заметку:
- Флаги:
- -fi - указывает адресный файл нуклеотидной последовательности
- -fo - указывает формат
- -bed - маркер файла в формате .bed с координатами.
- -name - вставляет значение четвёртой колонки с именем гена в описание fasta-последовательности.
- -s - в зависимости от того, прямая ли цепь или обратная, вырезает нужный участок без изменений или обращает комплементарный ему.
Итого:
- hcp.bed - файл, одна строка, содержащая, последовательно, через tab, идентификатор хромосомы, начало гена, конец гена, coverage(1) и направление цепи. С данными можно ознакомиться на странице прошлого практикума или скачав файл hcp.bed.
- hcp.fasta - файл с fasta-последовательностью
Номер | Задача | Входной файл | Команда | Выходной файл |
3 |
Разбить хромосому на фрагменты по 1млн нуклеотидов |
chr.txt - часть файла chr14.fasta.fai, через tab идентификатор хромосомы и её длина |
bedtools makewindows -g chr.txt -w 1000000 > frag.bed |
frag.bed |
Хозяйке на заметку:
- Флаги:
- -g - указывает на файл с данными по размерам участка генома
- -w - обозначает размер промежутка
Итого: Длина хромосомы 107349540 п.н. и 108 промежутков, как следствие.
frag.bed - файл с колонками идентификатора хромосомы, координатой начала и конца интервала.
Номер | Задача | Входной файл | Команда | Выходной файл |
4 |
Объеденить полученные чтения в кластеры |
chr14.1.bed |
bedtools cluster -i chr14.1.bed -s > cluster.bed |
cluster.bed |
Хозяйке на земетку:
- Флаги:
- -i - маркирует исходный bed.file
- -s - задаёт объединение на одноимённых цепочках
- -d - число, задаёт максимально-допустимый интервал между ридами для объединения и в кластер
Итого:
cluster.bed это исходный файл с указанием порядковый номер кластера, к которому он принадлежит.
Номер | Задача | Входной файл | Команда | Выходной файл |
5 |
Набрать из хромосомы 1000 случайных фрагментов по 200 нуклеотидов |
chr.txt |
bedtools random -g chr.txt -n 1000 -l 200 > whatever.bed |
whatever.bed |
Хозяйке на заметку:
- Флаги:
- -g - указание на файл, содержащий размер хромосомы
- -n - количество фрагментов
- -l - длина фрагментов
Итого:
whatever.bed - колонки разделены tab и содержат последовательно идентификатор хромосомы, начало интервала, конец интервала, порядковый номер интерввала, его длина и ориентация на цепи.
Номер | Задача | Входной файл | Команда | Выходной файл |
6 |
Получить координаты 3`-области одного из покрытых чтениями генов длиной в 1000 нуклеотидов |
hcp.bed |
|
|
Хозяйке на заметку:
Итого:
Номер | Задача | Входной файл | Команда | Выходной файл |
7 |
Получить координаты одного из покрытых чтениями генов, расширенные на 1000 нуклеотидов в обе стороны. |
hcp.bed |
bedtools slop -i hcp.bed -g chr.txt -b 1000 > 1000.bed |
1000.bed |
Хозяйке на заметку:
- Флаги:
- -i - маркер стартового файла
- -g - файл с размером хромосомы
- -b - параметр удлиннения
Итого:
Содержание файла 1000.bed
Номер | Задача | Входной файл | Команда | Выходной файл |
8 |
Получить координаты одного из покрытых чтениями генов, сдвинутые на 500 нуклеотидов ближе к началу хромосомы. |
hcp.bed |
bedtools shift -i hcp.bed -g chr.txt -s -500 > 500.bed |
500.bed |
Хозяйке на заметку:
- Флаги:
- -i - маркер стартового файла
- -s - указание количества нуклеотидов сдвига (+ или -) независимо от цепочки
- -p(+) и -m(-) - сдвижение на разное количество нуклеотидов
Итого: Содержание файла 500.bed
Номер | Задача | Входной файл | Команда | Выходной файл |
9 |
Получить непересекающиеся фрагменты соответствующие области, покрытой чтениями. |
chr141.bed |
bedtools genomecov -i chr141.bed -g chr.txt -bg >chr141cov.bed
grep -w 1 chr141cov.bed > join.bed |
join.bed |
Хозяйке на заметку:
- Флаги:
- -bg - объединяет все интервалы с одинаковым значинием в столбце покрытия
Итого:
grep -w 1 chr141cov.bed > join.bed - извлекает все интервалы с покрытием 1.
Номер | Задача | Входной файл | Команда | Выходной файл |
10 |
Получить файл с координатами интервалов, покрытых чтениями, с информацией о покрытии в любом формате. |
chr141.bed |
bedtools genomecov -i chr141.bed -g chr14.txt -bg >chr141cov.bed |
chr141cov.bed |
Хозяйке на заметку:
- Флаги:
- -bg - объединяет все интервалы с одинаковым значинием в столбце покрытия
Итого: файл с колонками, разделёнными tab, с информацией, последовательно, об идентификаторе хромосомы, координатами интервалов и покрытиями.
|