BEDTOOLS

Пакет BEDTOOLS - набор программ, позволяющий с помощью простых операций проводить глубокий анализ генома.
Вся работа выполнялась тут: /nfs/srv/databases/ngs/catherine.nesterenko/pr12

Входной файл	Выходной файл	Команда	Описание
sorted.bam	apl.bed	/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i sorted.bam >> alp.bed	Меняем формат отсортированного файла с выравниванием с .bam в .bed. -i - указывает на имя входного файла, формат которого мы меняем.
alp.bed	parts.bed	/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -u -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b alp.bed >> parts.bed	Ищем координаты пересечений чтений с поледовательностью генома. -u позволяет записать в файл только ненулевые пересечения, -a - указывает на файл 1, в нашем случае с разметкой, -b - файл 2, файл с ридами.
parts.bed, alp.bed	count.bed	/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -c -a parts.bed -b alp.bed >> count.bed	-с - считаем пересечения из предыдущего пункта. -a -b показывают имена 1-го и 2-го файлов.
parts.bed	parts-sorted.bed	/P/y14/term3/block4/SNP/bedtools2/bin/bedtools sort -i parts.bed >> parts-sorted.bed	Сортируем найденные пересечения в порядке расположения на геноме. -i - указывает на имя входного файла
parts-sorted.bed	merged.bed	/P/y14/term3/block4/SNP/bedtools2/bin/bedtools merge -c 5 -o distinct -i parts-sorted.bed >> merged.bed	Собираем все перекрытия и граничные участки в единый интервал. -с - номер столбца, для которого применены операции с помощью -о. После -о может стоть любая операция, которую мы хотим применить к столбцу. В нашем случае -c 5 означает, что мы работаем с именами генов. -o distinct означает, что берутся только уникальные значения названий генов для объединенных кусочков.
merged.bed	deep.bed	/P/y14/term3/block4/SNP/bedtools2/bin/bedtools coverage -a merged.bed -b alp.bed >>deep.bed	Считаем глубину покрытия генов нашими ридами. -a - для файла, покрытие которого ищем, -b - для файла, который содержит кусочки, которые накладываются на интервалы из первого файла.

Описание генов

Согласно выдаче последней программы:

chr6	74171301	74218959	AL603910.1,MTO1,Metazoa_SRP,RP11-505P4.6
chr6	74225473	74233520	EEF1A1

В Ensembl не было найдено информации про Metazoa_SRP, файл count.bed выдает информацию, что это - misc_RNA. Так же RP11-505P4.6 и AL603910.1 не были найдены в Ensembl. Но NCBI объединяет AL603910.1 и RP11-505P4.6. Информация для данного гена обновилась до 6-ой версии. ссылка

Большинство ридов легло на ген EEF1A1.

Ниже приведена информация о трех генах, вся информация взата из Ensembl. Количество экзонов взято из NCBI.
Таблица с описанием найденных генов

Название	Полное название	Размер	Координаты	Функция	Количество экзонов	Количество транскриптов	Направление	Покрытие ридами
MTO1	mitochondrial tRNA translation optimization 1	47658 п.н.	74171301-74218959	Ген кодирует белок, который участвует в модифификации митохондриальной тРНК. Также может играть роль в развитии глухоты связанной с мутацией в 12S рРНК гене.	14	19	+	2
EEF1A1	eukaryotic translation elongation factor 1 alpha 1	8046 п.н.	73515750-73523797	Этот ген кодирует изоформу альфа-субъединицы комплекса фактора элонгации-1, которая отвечает за ферментативную доставку аминоацильных тРНК в рибосому.	8	11	-	44707
AL603910.1 (clone-based RP11-505P4)	novel transcript	718 п.н.	73492025-73492742	miRNA	2 для единственного транскрипта	1	-	2

Дополнительные задания

Номер задания	Задание	Команда	Описание
1	Получите из файла в выравниванием файл с чтениями в формате fastq	/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtofastq -i sorted.bam -fq reads.fastq	Меняет формат отсортированного файла на fastq. -i - для входного файла, -fq - для итогового файла.
4	Объедините Ваши чтения в кластеры.	/P/y14/term3/block4/SNP/bedtools2/bin/bedtools cluster -i alp.bed >> cluster.bed	Объединяет чтения в кластеры. -i - указание на входной файл.
2	Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов.	/P/y14/term3/block4/SNP/bedtools2/bin/bedtools getfasta -name -bed merged.bed -fi ../chr6.fasta >> gen.fasta seqretsplit 'gen.fasta' -auto	Получаем последовательность нуклеотидов для найденных ранее генов, а потом разбиваем gen.fasta на два файла отдельно для каждого участка. -name для того, чтобы красиво указывались имена генов. -bed - для указания на файл в формате .bed, -fi - для указания на файл в формате .fasta.

Работа с пакетом BEDTOOLS

Описание генов

Дополнительные задания