Bedtools: пакет программ для анализа ридов

Этап первый: подготовительный

На этой странице ниже представлены примеры применения программы bedtools. Работа включала в себя не только анализ генов и чтений из прошлого практикума , но и призвана продемонстрировать несколько решений простых практических задач, не связанных с предыдущим проектом.

Перед началом работы был прописан путь до программы bedtools. Все рабочие файлы лежат в директории /nfs/srv/databases/ngs/solera/pr13, а также и файл с разметкой gencode.genes.bed был перемещён в рабочую директорию. мануал bedtools для выполнения заданий можете найти по этой ссылке. Поехали!

Анализ генов и перекрывающихся с ними прочтений

Ниже приведён список

КомандаВыходной файл
PATH=${PATH}/P/y14/term3/block4/SNP/bedtools2/bin
bedtools bamtobed -i chr14.1.sorted.bam > chr141.bed
bedtools bamtobed -i chr14.2.sorted.bam > chr142.bed
перевод отсортированных файлов формата .bam в файлы формата .bed
bedtools intersect -a gencode.genes.bed -b chr14.1.bed -c > chr14.1.intersect.bed
bedtools intersect -a gencode.genes.bed -b chr14.2.bed -c > chr14.2.intersect.bed
выявление пересечний относительно файла разметки
bedtools intersect -a gencode.genes.bed -b chr14.2.bed -u > chr142_u_intersect.bed то же самое, но теперь только те гены, значение покрытие для которых не равно 0
bedtools intersect -wa -wb -a chr141.bed -b gencode.genes.bed > chr14_1_wa_wb.bed
bedtools intersect -wa -wb -a chr141_u_intersect.bed -b gencode.genes.bed > chr14_1_wa_wb.bed
подсчёт покрытий чтениями

Примеры применения пакета bedtools

  • НомерЗадачаВходной файлКомандаВыходной файл
    1 Получить из файла с выравниваением файл.fastq с чтениями chr14.1.sorted.bam bedtools bamtofastq -i chr14.1.sorted.bam -fq 1.fastq 1.fastq
    Хозяйке на заметку:

    • Флаги:
    • -i - исходный файл
    • -fq - флаг формата fastq

  • НомерЗадачаВходной файлКомандаВыходной файл
    2 Получить файл с нуклеотидной последовательностью.fasta для гена, покрытыго чтениями chr14.fasta bedtools getfasta -fi chr14.fasta -bed hcp.bed -fo hcp.fasta -name -s hcp.fasta
    Хозяйке на заметку:

    • Флаги:
    • -fi - указывает адресный файл нуклеотидной последовательности
    • -fo - указывает формат
    • -bed - маркер файла в формате .bed с координатами.
    • -name - вставляет значение четвёртой колонки с именем гена в описание fasta-последовательности.
    • -s - в зависимости от того, прямая ли цепь или обратная, вырезает нужный участок без изменений или обращает комплементарный ему.

    Итого:

    • hcp.bed - файл, одна строка, содержащая, последовательно, через tab, идентификатор хромосомы, начало гена, конец гена, coverage(1) и направление цепи. С данными можно ознакомиться на странице прошлого практикума или скачав файл hcp.bed.
    • hcp.fasta - файл с fasta-последовательностью

    • НомерЗадачаВходной файлКомандаВыходной файл
      3 Разбить хромосому на фрагменты по 1млн нуклеотидов chr.txt - часть файла chr14.fasta.fai, через tab идентификатор хромосомы и её длина
      bedtools makewindows -g chr.txt -w 1000000 > frag.bed frag.bed
      Хозяйке на заметку:

      • Флаги:
      • -g - указывает на файл с данными по размерам участка генома
      • -w - обозначает размер промежутка

      Итого: Длина хромосомы 107349540 п.н. и 108 промежутков, как следствие. frag.bed - файл с колонками идентификатора хромосомы, координатой начала и конца интервала.

    • НомерЗадачаВходной файлКомандаВыходной файл
      4 Объеденить полученные чтения в кластеры chr14.1.bed bedtools cluster -i chr14.1.bed -s > cluster.bed cluster.bed
      Хозяйке на земетку:

      • Флаги:
      • -i - маркирует исходный bed.file
      • -s - задаёт объединение на одноимённых цепочках
      • -d - число, задаёт максимально-допустимый интервал между ридами для объединения и в кластер

      Итого: cluster.bed это исходный файл с указанием порядковый номер кластера, к которому он принадлежит.

    • НомерЗадачаВходной файлКомандаВыходной файл
      5 Набрать из хромосомы 1000 случайных фрагментов по 200 нуклеотидов chr.txt bedtools random -g chr.txt -n 1000 -l 200 > whatever.bed whatever.bed
      Хозяйке на заметку:

      • Флаги:
      • -g - указание на файл, содержащий размер хромосомы
      • -n - количество фрагментов
      • -l - длина фрагментов

      Итого: whatever.bed - колонки разделены tab и содержат последовательно идентификатор хромосомы, начало интервала, конец интервала, порядковый номер интерввала, его длина и ориентация на цепи.

    • НомерЗадачаВходной файлКомандаВыходной файл
      6 Получить координаты 3`-области одного из покрытых чтениями генов длиной в 1000 нуклеотидов hcp.bed
      Хозяйке на заметку:

      • Флаги:

      Итого:

    • НомерЗадачаВходной файлКомандаВыходной файл
      7 Получить координаты одного из покрытых чтениями генов, расширенные на 1000 нуклеотидов в обе стороны. hcp.bed bedtools slop -i hcp.bed -g chr.txt -b 1000 > 1000.bed 1000.bed
      Хозяйке на заметку:

      • Флаги:
      • -i - маркер стартового файла
      • -g - файл с размером хромосомы
      • -b - параметр удлиннения

      Итого: Содержание файла 1000.bed

    • НомерЗадачаВходной файлКомандаВыходной файл
      8 Получить координаты одного из покрытых чтениями генов, сдвинутые на 500 нуклеотидов ближе к началу хромосомы. hcp.bed bedtools shift -i hcp.bed -g chr.txt -s -500 > 500.bed 500.bed
      Хозяйке на заметку:

      • Флаги:
      • -i - маркер стартового файла
      • -s - указание количества нуклеотидов сдвига (+ или -) независимо от цепочки
      • -p(+) и -m(-) - сдвижение на разное количество нуклеотидов

      Итого: Содержание файла 500.bed

    • НомерЗадачаВходной файлКомандаВыходной файл
      9 Получить непересекающиеся фрагменты соответствующие области, покрытой чтениями. chr141.bed bedtools genomecov -i chr141.bed -g chr.txt -bg >chr141cov.bed
      grep -w 1 chr141cov.bed > join.bed
      join.bed
      Хозяйке на заметку:

      • Флаги:
      • -bg - объединяет все интервалы с одинаковым значинием в столбце покрытия

      Итого: grep -w 1 chr141cov.bed > join.bed - извлекает все интервалы с покрытием 1.

    • НомерЗадачаВходной файлКомандаВыходной файл
      10 Получить файл с координатами интервалов, покрытых чтениями, с информацией о покрытии в любом формате. chr141.bed bedtools genomecov -i chr141.bed -g chr14.txt -bg >chr141cov.bed chr141cov.bed
      Хозяйке на заметку:

      • Флаги:
      • -bg - объединяет все интервалы с одинаковым значинием в столбце покрытия

      Итого: файл с колонками, разделёнными tab, с информацией, последовательно, об идентификаторе хромосомы, координатами интервалов и покрытиями.


Вернуться назад

На главную страницу


©Solonovich Vera,2017