Анализ секвенирования транскриптома

Следите за обновлениями и дополнениями
Если Вы заметили опечатки, или ссылка испортилась, пожалуйста, напишите мне.

Чтобы ознакомиться с командами, использовавшимися при выполнении практикума, перейдите по ссылке.

Задача: картировать чтения, полученные в результате секвенирования транскриптома (человек, версия сборки генома hg19)

Дано:

1. Чтения, картирующиеся на участок хромосомы человека (получены путем секвенирования РНК).
Файлы с одноконцевыми чтениями в формате fastq лежат на kodomo в директории /P/y14/term3/block4/SNP/rnaseq_reads.
Для выполнения практикума была взята та же хромосома (третья), что изучалась при выполнении заданий практикума 11.
Для каждой хромосомы было взято два файла fastq - это 2 биологические реплики.

2. Разметка человеческого генома по версии Gencode19 для сборки hg19. Разметка в формате .gtf лежит на kodomo в директории /P/y14/term3/block4/SNP/rnaseq_reads (gff и gtf формат - это почти одно и то же)

Часть I: подготовка чтений

0. Создание рабочей директории.

Для выполнения практикума была создвна папка в рабочей директории /nfs/srv/databases/ngs/pavel-kravchenko/pr12, в которую были скопированы необходимые файлы.

1. Анализ качества чтений.

Была использована локальная версия программы FastQC и выполнен анализ качества ридов.
Команда: fastqc chr3.fastq

Программа выдаёт несколько массивов информации о интересующих нас ридах:
Basic Statistics - общая информация о числе ридов, методе секвенирования, GC составе и средней длине прочтения.
Так, для первой реплики было показано наличие 21211 ридов, секвенирование проводилось технологией Sanger / Illumina 1.9, длина ридов оказалась равной 33-51 нуклеотидам, а GC состав был определён значением в 41%.
Per base sequence quality - график качества ридов, который показывает, какого качества оказались те или иные прочтения.
Per sequence quality scores - характеризует среднее качество прочтений. По графику можно понять, какое качество свойственно ридам, полученным после секвенирования.
Per base sequence content - данный график демонстрирует качество прочтения по нуклеотидам и может быть использован для оценки шума прибора и контроля качества прочтений. Также можно посмотреть на частоту встречаемости того или иного нуклеотида в конкретной позиции ридов.
Per sequence GC content - показывает, какова средняя доля GC пар в ридах.
Sequence Length Distribution - среднее распределение длины ридов в файле.
Kmer Content - график, отражающий положение повторяющихся последовательностей в ридах.

Отчёт по работе программы FastQC для первой реплики

Отчёт по работе программы FastQC для второй реплики

Рисунок 1.1 Качество ридов до очистки в первой реплике

Рисунок 1.2 Качество ридов до очистки во второй реплике

На рисунке 1 содержится информация о качестве ридов. Красным, в перделах бокса, отмечена медиана, синим - среднее качество прочтений. Жёлтые прямоугольники - это интерквартирльные размахи, то есть расстояние между нижней и верхней квартилью качества для каждой позиции прочтения. Зелёная зона имеет quality scores от 28 до 40, что является оптимальным для использования в генетическом анализе и интерпретировании результатов. Попадание в жёлтую и красную зоны говорит о более высоком уровне ошибок.

С помощью программы Trimmomatic, установленной на kodomo, была произведена очистка чтений с помощью программы Trimmomatic. Для этого с конца каждого чтения были отрезаны нуклеотиды с качеством ниже 20 (TRAILING:20), и оставлены только чтения длиной не меньше 50 нуклеотидов (MINLEN:50).
Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr3.fastq chr3_outfile.fastq TRAILING:20 MINLEN:35
Программа получила на вход 21211 ридов и, после очистки, выдала 21210 ридов, что составило ~100% от исходного их количества. Был отброшен 1 рид.

Так как все риды оказались короткими последовательностями приблизительно одного качества, не имеет смысла сравнивать очищенный и неочищенный файлы. Ниже будут приведены основные параметры содержащихся в файле первой реплики прочтений.

Рисунок 2.1 Распределение нуклеотидов по позициям ридов в первой реплике

Рисунок 2.2 Распределение нуклеотидов по позициям ридов во второй реплике

По зравнением с прошлым практикумом, заметно, что распределение нуклеотидов неравномерное.

Рисунок 3.1 GC контент в первой реплике

Рисунок 3.2 GC контент во второй реплике

Рисунок 4.1 Длина прочтений в первой реплике

Рисунок 4.2 Длина прочтений во второй реплике

Рисунок 5.1 Quality scores в первой реплике

Рисунок 5.2 Quality scores во второй реплике

Рисунок 6.1 Тепловая карта в первой реплике

Рисунок 6.2 Тепловая карта во второй реплике

В то время как рисунки 2 - 5 заметно не отличаются друг от друга, тепловые карты на рисунке 6 демонстрируют различные по качеству проточные ячейки. Данная информация может быть успешно использована для отсечки шумов в столь дорогостоящем методе. Заметно, что во второй реплике шумов при секвенировании было больше (более тёплые области).

Часть II: картирование чтений

3. Картирование чтений.

Чтобы картировать прочтения, нужно произвести ряд манипуляций с командной строкой UNIX:

Сначала необходимо проиндексировать референсную последовательность.
Затем построить выравнивание прочтений и референса в формате .sam.

Сохранить вывод программы hisat2 в отдельный файл.

Таблица 1. Использовавшиеся команды.

Команда	Результат
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5	Прописывает временный путь до исполняемой программы
hisat2-build chr3.fasta chr3	Индексирует референсную последовательность, записывает результат в *.ht2 файлы
hisat2 -x chr3 -U chr3.[1/2].fastq --no-softclip > alignment[1/2].sam	Строит выранивание прочтения и референса, записывает результат в .sam файл

Из конанды был убран параметр --no-spliced-alignment, так как при анализе транскриптома риды могут ложиться на два экзона разделённых интроном.
Программа hisat2 выдала следующую информацию о выравниваниях для первой реплики.

21210 reads; of these:
  21210 (100.00%) were unpaired; of these:
    156 (0.74%) aligned 0 times
    20927 (98.67%) aligned exactly 1 time
    127 (0.60%) aligned >1 times
99.26% overall alignment rate

Было поручено 21210 ридов, из которых 156 были выровнены 0 раз, а 20927 лишь один раз; 127 были выровнены более 1 раза.
И для второй реплики соответственно.

16133 reads; of these:
  16133 (100.00%) were unpaired; of these:
    139 (0.86%) aligned 0 times
    15934 (98.77%) aligned exactly 1 time
    60 (0.37%) aligned >1 times
99.14% overall alignment rate

Видно, что во второй реплике немного меньше ридов.
Был получен alignment1.sam файл с выравниванием ридов первой реплики и alignment2.sam файл с выравниванием ридов второй реплики

Таблица 2. Сводная таблица.

Реплика	Число ридов	Число некартированных ридов	Число картированых ровно 1 раз ридов	Число картированых более 1 раза ридов	Среднее качество выравнивания
Первая	21210	156	20927	127	99.26%
Вторая	16133	139	15934	60	99.14%

3. Анализ выравнивания.

Для анализа выравнивания использовалась программа samtools, работающая с бинарными файлами.

Таблица 3. Использовавшиеся команды.

Команда	Результат
samtools view alignment[1/2].sam -b -o alignment[1/2].bam	Переводит выравнивание в бинарный формат
samtools sort alignment[1/2].bam -T out_sort[1/2].txt -o alignment_sorted[1/2].bam	Индексирует референсную последовательность, записывает результат в *.ht2 файлы
samtools index alignment_sorted[1/2].bam	Индексирует отсортированный .bam файл
samtools idxstats alignment_sorted[1/2].bam > out[1/2].txt	Записывает откартировавшиеся прочтения

Для первой реплики был получен файл alignment_sorted1.bam, в котором содержатся отсортированные выравнивания, необходимые для дальнейшей работы.

Файл out1.txt содержит информацию о картировании ридов:

chr3	198022430	21075	0
*	0	0	156

Данная информация говорит о том, что на хромосому было картировано 21075 ридов, тогда как 156 ридов не было картировано. Длина хромосомы составила 198022430 нуклеотидов.

Для второй реплики был получен аналогичный alignment_sorted2.bam. Его, как и второй файл out2.txt можно расшифровать аналогично. Интересно будет визуализировать и посмотреть выравнивания рядом.

4. Подсчет чтений. Работа с Bedtools

С помощью программы Bedtools были проанализирования покрытия генов полученными ридами. Использовались полученные выше сортированные файлы.

Для работы с программой необходимо подавать на вход .bed файлы. С этой целью была применена команда bamtobed, которая получает на вход .bam файл, а выдаёт .bed соответственно.

Файл с разметкой генов для следующих манипуляций по версии Gencode для генома человека сборки hg19 лежит по адресу: /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed
Программа bedtools может быть вызвана так: export PATH=${PATH}:/P/y14/term3/block4/SNP/bedtools2/bin

С помощью команды intersect, при использовании разметки генов для генома человека, было найдено пересечение полученного выравнивания с генами. Параметры запуска можно найти в подробном мануале.

Таблица 4. Использовавшиеся команды.

Команда	Результат
bedtools bamtobed -i alignment_sorted[1/2].bam > chr3.[1/2]_s.bed	Получает на вход .bam файл, а выдаёт .bed соответственно
bedtools intersect -a gencode.genes.bed -b chr3.[1/2]_s.bed -u > chr3.[1/2]_crossed.bed	Ищет перекрывание множества генов генома с множеством ридов выравнивания. -u отбираются лишь гены с ненулевым покрытием.

При обработке файлов было выдано предупреждение о отсутствии двух псевдогенов в множестве генов. Были получены файлы с перекрываниями обоих множеств.

Yes, My Lord:/nfs/srv/databases/ngs/pavel-kravchenko/pr12 bedtools intersect -a gencode.genes.bed -b chr3.1_s.bed -u > chr3.1_crossed.bed
***** WARNING: File gencode.genes.bed has inconsistent naming convention for record:
GL877870.2      2348    2545    pseudogene      CICP10

***** WARNING: File gencode.genes.bed has inconsistent naming convention for record:
GL877870.2      2348    2545    pseudogene      CICP10

Были получены следующие гены

chr3	195754054	195809060	protein_coding	TFRC
chr3	195754054	195782085	protein_coding	TFRC
chr3	195781951	195782085	protein_coding	TFRC
chr3	195781951	195782085	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195776155	195808965	protein_coding	TFRC
chr3	195808914	195808965	protein_coding	TFRC
chr3	195803935	195803993	protein_coding	TFRC
chr3	195800801	195800996	protein_coding	TFRC
chr3	195800801	195800991	protein_coding	TFRC
chr3	195800989	195800991	protein_coding	TFRC
chr3	195798874	195799023	protein_coding	TFRC
chr3	195798874	195799023	protein_coding	TFRC
chr3	195798267	195798369	protein_coding	TFRC
chr3	195798267	195798369	protein_coding	TFRC
chr3	195796326	195796439	protein_coding	TFRC
chr3	195796326	195796439	protein_coding	TFRC
chr3	195794903	195795001	protein_coding	TFRC
chr3	195794903	195795001	protein_coding	TFRC
chr3	195794389	195794528	protein_coding	TFRC
chr3	195794389	195794528	protein_coding	TFRC
chr3	195792314	195792471	protein_coding	TFRC
chr3	195792314	195792471	protein_coding	TFRC
chr3	195791180	195791299	protein_coding	TFRC
chr3	195791180	195791299	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195781951	195782172	protein_coding	TFRC
chr3	195781951	195782172	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195776155	195779055	protein_coding	TFRC
chr3	195778816	195779055	protein_coding	TFRC
chr3	195778813	195778815	protein_coding	TFRC
chr3	195808914	195808965	protein_coding	TFRC
chr3	195803935	195803993	protein_coding	TFRC
chr3	195800992	195800996	protein_coding	TFRC
chr3	195776155	195778815	protein_coding	TFRC
chr3	195776155	195809060	protein_coding	TFRC
chr3	195808914	195809060	protein_coding	TFRC
chr3	195803935	195803993	protein_coding	TFRC
chr3	195803935	195803970	protein_coding	TFRC
chr3	195803968	195803970	protein_coding	TFRC
chr3	195802030	195802231	protein_coding	TFRC
chr3	195802030	195802231	protein_coding	TFRC
chr3	195800801	195800996	protein_coding	TFRC
chr3	195800801	195800996	protein_coding	TFRC
chr3	195798874	195799023	protein_coding	TFRC
chr3	195798874	195799023	protein_coding	TFRC
chr3	195798267	195798369	protein_coding	TFRC
chr3	195798267	195798369	protein_coding	TFRC
chr3	195796326	195796439	protein_coding	TFRC
chr3	195796326	195796439	protein_coding	TFRC
chr3	195794903	195795001	protein_coding	TFRC
chr3	195794903	195795001	protein_coding	TFRC
chr3	195794389	195794528	protein_coding	TFRC
chr3	195794389	195794528	protein_coding	TFRC
chr3	195792314	195792471	protein_coding	TFRC
chr3	195792314	195792471	protein_coding	TFRC
chr3	195791180	195791299	protein_coding	TFRC
chr3	195791180	195791299	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195781951	195782172	protein_coding	TFRC
chr3	195781951	195782172	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195776155	195779055	protein_coding	TFRC
chr3	195778816	195779055	protein_coding	TFRC
chr3	195778813	195778815	protein_coding	TFRC
chr3	195808914	195809060	protein_coding	TFRC
chr3	195803971	195803993	protein_coding	TFRC
chr3	195776155	195778815	protein_coding	TFRC
chr3	195776156	195808961	protein_coding	TFRC
chr3	195808914	195808961	protein_coding	TFRC
chr3	195803935	195803993	protein_coding	TFRC
chr3	195803935	195803967	protein_coding	TFRC
chr3	195803965	195803967	protein_coding	TFRC
chr3	195800801	195800996	protein_coding	TFRC
chr3	195800991	195800996	protein_coding	TFRC
chr3	195800988	195800990	protein_coding	TFRC
chr3	195798874	195799023	protein_coding	TFRC
chr3	195798267	195798369	protein_coding	TFRC
chr3	195796326	195796439	protein_coding	TFRC
chr3	195794903	195795001	protein_coding	TFRC
chr3	195794389	195794528	protein_coding	TFRC
chr3	195792314	195792471	protein_coding	TFRC
chr3	195791180	195791299	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195781951	195782172	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195776156	195779055	protein_coding	TFRC
chr3	195808914	195808961	protein_coding	TFRC
chr3	195803968	195803993	protein_coding	TFRC
chr3	195800801	195800990	protein_coding	TFRC
chr3	195798874	195799023	protein_coding	TFRC
chr3	195798267	195798369	protein_coding	TFRC
chr3	195796326	195796439	protein_coding	TFRC
chr3	195794903	195795001	protein_coding	TFRC
chr3	195794389	195794528	protein_coding	TFRC
chr3	195792314	195792471	protein_coding	TFRC
chr3	195791180	195791299	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195781951	195782172	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195776156	195779055	protein_coding	TFRC
chr3	195776347	195808961	protein_coding	TFRC
chr3	195808702	195808961	protein_coding	TFRC
chr3	195803935	195803993	protein_coding	TFRC
chr3	195803935	195803970	protein_coding	TFRC
chr3	195803968	195803970	protein_coding	TFRC
chr3	195802030	195802231	protein_coding	TFRC
chr3	195802030	195802231	protein_coding	TFRC
chr3	195800801	195800996	protein_coding	TFRC
chr3	195800801	195800996	protein_coding	TFRC
chr3	195798874	195799023	protein_coding	TFRC
chr3	195798874	195799023	protein_coding	TFRC
chr3	195798267	195798369	protein_coding	TFRC
chr3	195798267	195798369	protein_coding	TFRC
chr3	195796326	195796439	protein_coding	TFRC
chr3	195796326	195796439	protein_coding	TFRC
chr3	195794903	195795001	protein_coding	TFRC
chr3	195794903	195795001	protein_coding	TFRC
chr3	195794389	195794528	protein_coding	TFRC
chr3	195794389	195794528	protein_coding	TFRC
chr3	195792314	195792471	protein_coding	TFRC
chr3	195792314	195792471	protein_coding	TFRC
chr3	195791180	195791299	protein_coding	TFRC
chr3	195791180	195791299	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195781951	195782172	protein_coding	TFRC
chr3	195781951	195782172	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195776347	195779055	protein_coding	TFRC
chr3	195778816	195779055	protein_coding	TFRC
chr3	195778813	195778815	protein_coding	TFRC
chr3	195808702	195808961	protein_coding	TFRC
chr3	195803971	195803993	protein_coding	TFRC
chr3	195776347	195778815	protein_coding	TFRC
chr3	195778633	195808962	protein_coding	TFRC
chr3	195808914	195808962	protein_coding	TFRC
chr3	195803935	195803993	protein_coding	TFRC
chr3	195798874	195799023	protein_coding	TFRC
chr3	195798267	195798369	protein_coding	TFRC
chr3	195796326	195796439	protein_coding	TFRC
chr3	195794903	195795001	protein_coding	TFRC
chr3	195794903	195794956	protein_coding	TFRC
chr3	195794954	195794956	protein_coding	TFRC
chr3	195794389	195794528	protein_coding	TFRC
chr3	195794389	195794528	protein_coding	TFRC
chr3	195792314	195792471	protein_coding	TFRC
chr3	195792314	195792471	protein_coding	TFRC
chr3	195791180	195791299	protein_coding	TFRC
chr3	195791180	195791299	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195781951	195782172	protein_coding	TFRC
chr3	195781951	195782172	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195780289	195780429	protein_coding	TFRC
chr3	195778633	195779055	protein_coding	TFRC
chr3	195778816	195779055	protein_coding	TFRC
chr3	195778813	195778815	protein_coding	TFRC
chr3	195808914	195808962	protein_coding	TFRC
chr3	195803935	195803993	protein_coding	TFRC
chr3	195798874	195799023	protein_coding	TFRC
chr3	195798267	195798369	protein_coding	TFRC
chr3	195796326	195796439	protein_coding	TFRC
chr3	195794957	195795001	protein_coding	TFRC
chr3	195778633	195778815	protein_coding	TFRC
chr3	195780363	195782432	protein_coding	TFRC
chr3	195781951	195782432	protein_coding	TFRC
chr3	195780363	195780429	protein_coding	TFRC
chr3	195780380	195789846	protein_coding	TFRC
chr3	195789453	195789846	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195781951	195782172	protein_coding	TFRC
chr3	195780380	195780429	protein_coding	TFRC
chr3	195781982	195787475	protein_coding	TFRC
chr3	195787051	195787475	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785155	195785236	protein_coding	TFRC
chr3	195781982	195782172	protein_coding	TFRC
chr3	195784833	195787120	protein_coding	TFRC
chr3	195787051	195787120	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195784833	195785236	protein_coding	TFRC
chr3	195785082	195785829	protein_coding	TFRC
chr3	195785445	195785829	protein_coding	TFRC
chr3	195785082	195785236	protein_coding	TFRC
chr3	195785154	195790295	protein_coding	TFRC
chr3	195790096	195790295	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785154	195785236	protein_coding	TFRC
chr3	195785197	195790063	protein_coding	TFRC
chr3	195789725	195790063	protein_coding	TFRC
chr3	195789453	195789516	protein_coding	TFRC
chr3	195787051	195787118	protein_coding	TFRC
chr3	195785445	195785503	protein_coding	TFRC
chr3	195785197	195785236	protein_coding	TFRC
chr3	195789262	195792421	protein_coding	TFRC
chr3	195792314	195792421	protein_coding	TFRC
chr3	195791180	195791299	protein_coding	TFRC
chr3	195789725	195789810	protein_coding	TFRC
chr3	195789262	195789516	protein_coding	TFRC
chr3	195794478	195796571	protein_coding	TFRC
chr3	195796326	195796571	protein_coding	TFRC
chr3	195794903	195795001	protein_coding	TFRC
chr3	195794478	195794528	protein_coding	TFRC
chr3	195798311	195808967	protein_coding	TFRC
chr3	195808914	195808967	protein_coding	TFRC
chr3	195803935	195803993	protein_coding	TFRC
chr3	195803935	195803970	protein_coding	TFRC
chr3	195803968	195803970	protein_coding	TFRC
chr3	195802030	195802231	protein_coding	TFRC
chr3	195802030	195802231	protein_coding	TFRC
chr3	195798874	195799023	protein_coding	TFRC
chr3	195799019	195799023	protein_coding	TFRC
chr3	195799016	195799018	protein_coding	TFRC
chr3	195798311	195798369	protein_coding	TFRC
chr3	195808914	195808967	protein_coding	TFRC
chr3	195803971	195803993	protein_coding	TFRC
chr3	195798874	195799018	protein_coding	TFRC
chr3	195798311	195798369	protein_coding	TFRC
chr3	195801068	195808961	protein_coding	TFRC
chr3	195808914	195808961	protein_coding	TFRC
chr3	195803935	195803993	protein_coding	TFRC
chr3	195802030	195802231	protein_coding	TFRC
chr3	195801068	195801304	protein_coding	TFRC
chr3	195799690	195799751	snRNA	RNU7-18P
chr3	195799690	195799751	snRNA	RNU7-18P
chr3	195799690	195799751	snRNA	RNU7-18P

Визуализация в IGV

В программе IGV были визуализированы полученные файлы.

Рисунок 7. Визуализация ридов РНК секвенирования в IGV

Рисунок 8. Визуализация SNP в IGV

К сожалению, не удалось найти идентичный для обеих картинок участок, но в IGV видно, что при секвенировании SNP получают риды гораздо большей длины. Синими соединяющими линиями показаны участки, вырезающиеся во время сплайсинга. Можго заметить, что риды при экзомном секвенировании распологаются, в основном, упорядоченно, ровно над кодирующими областями. При поиске SNP используются праймеры, чтения с которых ложатся неравномерно.

5. Анализ результатов

Дыло получено два файла с покрытиями. Для первой реплики их оказалось 281, а для второй на 11 меньше. Из полученного файла первой реплики были выбраны и проанализированы три гена. В файле оказалось множество трансферрин-кодирующих генов, поэтому было решено анализировать два TFRC гена.

chr3	195802030	195802231	protein_coding	TFRC
chr3	195801068	195801304	protein_coding	TFRC
chr3	195799690	195799751	snRNA	RNU7-18P

Из визуализации видно, что не все ридв хорошо ложатся на гены. Некоторые расположены на интронах (~5%), а некоторые (~0.5%) ложатся на некодирующие или неаннотированные области. Это может быть связано как с ошибкой метода, так и с недостаточной изученностью экспрессии, плохим картированием.

Работа в bedtools

Обязательная часть

Задача: какие гены и насколько глубоко оказались покрыты чтениями, которые мы анализировали в выше. Нужно описать эти гены: размер, координаты, функция, количество экзонов и интронов, направление, любая дополнительная информация.

Таблица 5.Описание некоторых найденных генов. Покрытия были получены при работе с командой intersect с параметром -c.

Кордината начала	Кордината начала	Имя	Функция	Покрытие	Направление
195802030	195802231	TFRC	Продукт гена необходим для доставки железа от трансферрина в клетку. Является трансмембранным гликопротеином, состоит из двух мономеров, соединённых дисульфидной связью. Каждый мономер связывает одну молекулу голотрансферина, образуя комплекс Fe-Tf-TfR	2284	+
195801068	195801304	TFRC	-//-	2457	-
195799690	195799751	RNU7-18P	Малая ядерная некодирующая РНК. Функции продукта неизвестны.	66	-

Рисунок 9. 195802030

Рисунок 10. 195801068

Рисунок 11. 195799690

Дополнительные задания

1. Получите из файла в выравниванием файл с чтениями в формате fastq

Исходные данные: alignment_sorted1.bam

Команда: bedtools bamtofastq -i alignment_sorted1.bam -fq chr3.1_all.fq

Результат: chr3.1_all.fq

2. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов.

Для этого нужно создать файл, с которым мы будем пересекать наши чтения. Исходные данные: chr3_my_gene.bed

Команда: bedtools getfasta -fi chr3.fasta -bed chr3_my_gene.bed > my_gene.fasta

Результат: my_gene.fasta

3. Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов. Какова длина хромосомы в нуклеотидах? Сколько в результате получилось интервалов?

Исходные данные: my_chromosome_l.txt

Команда: bedtools makewindows -g my_chromosome_l.txt -w 1000000 > my_chromosome_by_1000000.txt

Результат: my_chromosome_by_1000000.txt
У меня получилось, что хромосома длиной была разбита на 200 частей.

4. Объедините Ваши чтения в кластеры (используйте bed файл с выровненными чтениями из Обязательной части задания).

Исходные данные: chr3.1_s.bed

Команда: bedtools cluster -i chr3.1_s.bed -d 7 > chr3.1_clusters.txt

Результат: chr3.1_clusters.txt

5. Наберите из Вашей хромосомы 1000 случайных фрагментов по 200 нуклеотидов.

Исходные данные: my_chromosome_l.txt, chr3.fasta

Команда1: bedtools random -g my_chromosome_l.txt -n 1000 -l 200 > random_1000_200.bed #Сгенерировали 1000 последовательностей длины 200 учитывая длину хромосомы 3.

Команда2: bedtools getfasta -fi chr3.fasta -bed random_1000_200.bed > random_parts.bed

Результат: random_parts.bed, random_1000_200.bed

6. Получите координаты 3`-области одного из покрытых Вашими чтениями генов длиной в 1000 нуклеотидов. --/ In work /--

Исходные данные:

Команда:

Результат:

7. Получите координаты одного из покрытых Вашими чтениями генов, расширенные на 1000 нуклеотидов в обе стороны.

Исходные данные: my_chromosome_l.txt, my_gene.bed

Команда: bedtools slop -i my_gene.bed -g my_chromosome_l.txt -b 1000 > my_gene_slopped.bed

Результат: my_gene_slopped.bed

8. Получите координаты одного из покрытых Вашими чтениями генов, сдвинутые на 500 нуклеотидов ближе к началу хромосомы.

Исходные данные: my_chromosome_l.txt, my_gene.bed

Команда: bedtools shift -i my_gene.bed -g my_chromosome_l.txt -s -500 > my_gene_shifted.bed

Результат: my_gene_shifted.bed

9. Получите непересекающиеся фрагменты, соответствующие области, покрытой Вашими чтениями (используйте bed файл с выровненными чтениями из Обязательной части задания). --/ In work /--

Исходные данные:

Команда:

Результат:

10. Получите файл с координатами интервалов, покрытых Вашими чтениями, с информацией о покрытии в любом формате. --/ In work /--

Исходные данные:

Команда:

Результат:

Крайняя таблица (n). Использовавшиеся команды.

Команда	Результат
fastqc chr3.fastq	Анализ качества ридов
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr3.fastq chr3_outfile.fastq TRAILING:20 MINLEN:50	Очистка чтений
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5	Прописывает временный путь до исполняемой программы
hisat2-build chr3.fasta chr3	Индексирует референсную последовательность, записывает результат в *.ht2 файлы
hisat2 -x chr3 -U chr3_outfile.fastq --no-spliced-alignment --no-softclip > alignment.sam	Строит выранивание прочтения и референса, записывает результат в .sam файл
samtools view alignment.sam -b -o alignment.bam	Переводит выравнивание в бинарный формат
samtools sort alignment.bam -T out_sort.txt -o alignment_sorted.bam	Индексирует референсную последовательность, записывает результат в *.ht2 файлы
samtools index alignment_sorted.bam	Индексирует отсортированный .bam файл

Самая крайняя таблица. (n + 1). Команды bedtools

Команда	Результат
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5	Прописывает временный путь до исполняемой программы
hisat2-build chr3.fasta chr3	Индексирует референсную последовательность, записывает результат в *.ht2 файлы
hisat2 -x chr3 -U chr3.[1/2].fastq --no-softclip > alignment[1/2].sam	Строит выранивание прочтения и референса, записывает результат в .sam файл
samtools view alignment[1/2].sam -b -o alignment[1/2].bam	Переводит выравнивание в бинарный формат
samtools sort alignment[1/2].bam -T out_sort[1/2].txt -o alignment_sorted[1/2].bam	Индексирует референсную последовательность, записывает результат в *.ht2 файлы
samtools index alignment_sorted[1/2].bam	Индексирует отсортированный .bam файл
samtools idxstats alignment_sorted[1/2].bam > out[1/2].txt	Записывает откартировавшиеся прочтения
bedtools bamtobed -i alignment_sorted[1/2].bam > chr3.[1/2]_s.bed	Получает на вход .bam файл, а выдаёт .bed соответственно
bedtools intersect -a gencode.genes.bed -b chr3.[1/2]_s.bed -u > chr3.[1/2]_crossed.bed	Ищет перекрывание множества генов генома с множеством ридов выравнивания. -u отбираются лишь гены с ненулевым покрытием.
bedtools bamtofastq -i alignment_sorted1.bam -fq chr3.1_all.fq	Переводит bam в fastq формат
bedtools getfasta -fi chr3.fasta -bed chr3_my_gene.bed > my_gene.fasta	Нарезает хромосому по разметке и кладёт каждый кусочек под свой ID
bedtools makewindows -g my_chromosome_l.txt -w 1000000 > my_chromosome_by_1000000.txt	Режет хромосому по рамке в 1000000 нуклеотидов
bedtools cluster -i chr3.1_s.bed -d 7 > chr3.1_clusters.txt	Собирает риды в кластеры, если они ближе, чем 7 нуклеотидов
bedtools random -g my_chromosome_l.txt -n 1000 -l 200 > random_1000_200.bed	Создаёт случайные рамки
bedtools getfasta -fi chr3.fasta -bed random_1000_200.bed > random_parts.bed	Получает файл с нарезанными по координатам кусочками
bedtools slop -i my_gene.bed -g my_chromosome_l.txt -b 1000 > my_gene_slopped.bed	Расширяет рамки на 1000
bedtools shift -i my_gene.bed -g my_chromosome_l.txt -s -500 > my_gene_shifted.bed	Сдвиг рамки влево или вправо (ближе или дальше от начала\конца хромосомы)

Анализ секвенирования транскриптома

Задача: картировать чтения, полученные в результате секвенирования транскриптома (человек, версия сборки генома hg19)

Дано:

Часть I: подготовка чтений

0. Создание рабочей директории.

1. Анализ качества чтений.

Часть II: картирование чтений

3. Картирование чтений.

3. Анализ выравнивания.

4. Подсчет чтений. Работа с Bedtools

Визуализация в IGV

5. Анализ результатов

Работа в bedtools

Обязательная часть

Дополнительные задания

1. Получите из файла в выравниванием файл с чтениями в формате fastq

2. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов.

3. Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов. Какова длина хромосомы в нуклеотидах? Сколько в результате получилось интервалов?

4. Объедините Ваши чтения в кластеры (используйте bed файл с выровненными чтениями из Обязательной части задания).

5. Наберите из Вашей хромосомы 1000 случайных фрагментов по 200 нуклеотидов.

6. Получите координаты 3`-области одного из покрытых Вашими чтениями генов длиной в 1000 нуклеотидов. --/ In work /--

7. Получите координаты одного из покрытых Вашими чтениями генов, расширенные на 1000 нуклеотидов в обе стороны.

8. Получите координаты одного из покрытых Вашими чтениями генов, сдвинутые на 500 нуклеотидов ближе к началу хромосомы.

10. Получите файл с координатами интервалов, покрытых Вашими чтениями, с информацией о покрытии в любом формате. --/ In work /--

Ссылки