Работа с пакетом BEDTOOLS

Пакет BEDTOOLS - набор программ, позволяющий с помощью простых операций проводить глубокий анализ генома.
Вся работа выполнялась тут: /nfs/srv/databases/ngs/catherine.nesterenko/pr12
Входной файл Выходной файл Команда Описание
sorted.bam apl.bed
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools
 bamtobed -i sorted.bam >> alp.bed
Меняем формат отсортированного файла с выравниванием с .bam в .bed. -i - указывает на имя входного файла, формат которого мы меняем.
alp.bed parts.bed
 /P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -u 
-a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b alp.bed >> parts.bed
Ищем координаты пересечений чтений с поледовательностью генома. -u позволяет записать в файл только ненулевые пересечения, -a - указывает на файл 1, в нашем случае с разметкой, -b - файл 2, файл с ридами.
parts.bed, alp.bed count.bed
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools
 intersect -c -a parts.bed -b alp.bed >> count.bed
-с - считаем пересечения из предыдущего пункта. -a -b показывают имена 1-го и 2-го файлов.
parts.bed parts-sorted.bed
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools
 sort -i parts.bed >> parts-sorted.bed
Сортируем найденные пересечения в порядке расположения на геноме. -i - указывает на имя входного файла
parts-sorted.bed merged.bed
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools
 merge -c 5 -o distinct -i parts-sorted.bed >> merged.bed
Собираем все перекрытия и граничные участки в единый интервал. -с - номер столбца, для которого применены операции с помощью -о. После -о может стоть любая операция, которую мы хотим применить к столбцу. В нашем случае -c 5 означает, что мы работаем с именами генов. -o distinct означает, что берутся только уникальные значения названий генов для объединенных кусочков.
merged.bed deep.bed
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools coverage 
-a merged.bed -b alp.bed >>deep.bed
Считаем глубину покрытия генов нашими ридами. -a - для файла, покрытие которого ищем, -b - для файла, который содержит кусочки, которые накладываются на интервалы из первого файла.

Описание генов

Согласно выдаче последней программы:
chr6	74171301	74218959	AL603910.1,MTO1,Metazoa_SRP,RP11-505P4.6
chr6	74225473	74233520	EEF1A1

В Ensembl не было найдено информации про Metazoa_SRP, файл count.bed выдает информацию, что это - misc_RNA. Так же RP11-505P4.6 и AL603910.1 не были найдены в Ensembl. Но NCBI объединяет AL603910.1 и RP11-505P4.6. Информация для данного гена обновилась до 6-ой версии. ссылка

Большинство ридов легло на ген EEF1A1.

Ниже приведена информация о трех генах, вся информация взата из Ensembl. Количество экзонов взято из NCBI.
Таблица с описанием найденных генов
Название Полное название Размер Координаты Функция Количество экзонов Количество транскриптов Направление Покрытие ридами
MTO1 mitochondrial tRNA translation optimization 1 47658 п.н. 74171301-74218959 Ген кодирует белок, который участвует в модифификации митохондриальной тРНК. Также может играть роль в развитии глухоты связанной с мутацией в 12S рРНК гене. 14 19 + 2
EEF1A1 eukaryotic translation elongation factor 1 alpha 1 8046 п.н. 73515750-73523797 Этот ген кодирует изоформу альфа-субъединицы комплекса фактора элонгации-1, которая отвечает за ферментативную доставку аминоацильных тРНК в рибосому. 8 11 - 44707
AL603910.1 (clone-based RP11-505P4) novel transcript 718 п.н. 73492025-73492742 miRNA 2 для единственного транскрипта 1 - 2

Дополнительные задания

Номер задания Задание Команда Описание
1 Получите из файла в выравниванием файл с чтениями в формате fastq
 /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtofastq 
-i sorted.bam -fq reads.fastq
Меняет формат отсортированного файла на fastq. -i - для входного файла, -fq - для итогового файла.
4 Объедините Ваши чтения в кластеры.
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools cluster -i alp.bed >> cluster.bed
Объединяет чтения в кластеры. -i - указание на входной файл.
2 Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов.
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools
 getfasta -name -bed merged.bed -fi ../chr6.fasta >> gen.fasta
seqretsplit 'gen.fasta' -auto
Получаем последовательность нуклеотидов для найденных ранее генов, а потом разбиваем gen.fasta на два файла отдельно для каждого участка. -name для того, чтобы красиво указывались имена генов. -bed - для указания на файл в формате .bed, -fi - для указания на файл в формате .fasta.

© Нестеренко Екатерина 2018