Сборка генома de novo

Вернуться на страницу семестра

Задача: картировать чтения, полученные в результате секвенирования транскриптома (человек, версия сборки генома hg19)

Часть I: подготовка чтений

0. Создание рабочей директории и скачивание данных.
Код доступа проекта по секвенированию бактерии Buchnera aphidicola: SRR4240360. Cам проект доступен по адресу http://www.ebi.ac.uk/ena/data/view/SRR4240360. SRR4240379.fastq.

1. Подготовка чтений программой trimmomatic
Прежде всего надо удалить возможные остатки адаптеров. Для этого можно использовать следующий "step" программы trimmomatic: ILLUMINACLIP:adapters.fasta:2:7:7, где adapters.fasta – файл с адаптерами. Адаптеры для Illumina собраны в файлах в директории /P/y16/term3/block3/adapters. Я создала свой файл, в котором объединила все адаптеры из этих файлов вместе.
Вывод программы при удалении адаптеров - Input Reads: 8254632 Surviving: 8212761 (99,49%) Dropped: 41871 (0,51%)
После этого удалите плохие буквы с концов чтений, оставив только чтения длиной не менее 30. Вывод программы: Input Reads: 8212761 Surviving: 7935083 (96,62%) Dropped: 277678 (3,38%), размер файла SRR4240360.fastq до очистки - 832 Мб, после - 798 Мб.

Часть II: реализация сборки с помощью графа де Брайна через программу Velvet

Запустите программу velveth, сначала с опцией -help. Разберитесь, как запустить её в данном случае. чтобы она подготовила k-меры длины k=29 (максимально возможной при нашей длине чтений). Практически во всём можно разобраться, читая help, но можно почитать и руководство. Длина k-мера называется hash_length, чтения в нашем случае короткие и не парные (short).

2. Подготовка k-меров длины 29 velveth
Есть два основных типа алгоритмов сборки: OLC = overlap-layout-consensus (алгоритмы OLC работают непосредственно с ридами), de Bruijn graph (алгоритмы, использующие граф де Брайна, сначала составляют список k-меров (слов длины k, например k = 30), встретившихся в ридах.

3. Сборка velvetg
Запускаю velvetg (сборка на основе k-меров). Вывод программы: Final graph has 1944 nodes and n50 of 34768, max 80212, total 710306, using 0/8254632 reads
N50 - 34768, длины трёх самых длинных контигов: ID 11 - 80212, ID 7 - 70305, ID 9 - 68353; и соответственно их покрытие: 44.44, 49.82, 47.30.
Есть контиги с аномально большим: ID 1563 - 1026604, ID 1565 - 72483, ID 1568 - 23411; и аномально малым покрытием: ID 540 - 1.
О том, как считается покрытие и длина: у каждого k-мера есть покрытие (сколько раз он встретился в ридах), покрытие контига это среднеарифметическое для покрытия всех k-меров, из которых он состоит. Длина также тесно связана с k-мерами: длина 1 означает, что контиг длины 1 k-мер, то есть 29, длина 3 означает, что в контиге есть 3 k-мера, то есть 31 нуклеотид.

Часть III: Анализ. Сравнение программой megablast

4. Выравнивание в blastn
Программой megablast каждый из трёх самых длинных контигов сравнивался с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Координаты участка хромосомы, соответствующего контигу, характеристики выравнивания или выравниваний (число однонуклеотидных различий, число гэпов). Про каждый контиг требуется понятное описание того, как именно он "ложится" на банковский геном.

5. Анализ результатов

Все сводные данные по выравниваниям в таблице.

Рисунок 1. Выравнивание контига 11 с хромосомой

Таблица 1. Данные о выравниваниях

% identitylengthmismatchesgap opensq. Startq. Ends. Starts. Endevalue
82.46043914901414344813014808741.53e-101
74.125597181719664065144806604748440.0
77.02073899911686617139304746674674120.0
77.009501554213513960189014674214624960.0
75.4654732129511228792334444540694494110.0
80.255305410095236016390434458954428770.0
79.04416948372439173408484428174411350.0
88.947190368640970411514409444407559.77e-59
97.56182566141241413224407324406524.71e-32
77.08229547108643947468704381394352670.0
75.193349532012346932503614352414318390.0
76.199415115411552963570414294834254120.0
79.113857326761151620044213274204771.81e-165
79.528466517010964936695304176774130810.0
80.7991828612870617724314123214105120.0
82.3612177131576679788474062184040500.0
85.92411581579090802404038234026680.0

Координаты участка хромосомы, соответствующего контигу:402668-481301, выравнивание по - цепи

Рисунок 2. Выравнивание контига 7 с хромосомой

Таблица 2. Данные о выравниваниях

% identitylengthmismatchesgap opensq. Startq. Ends. Starts. Endevalue
82.85196331522100330989544693351240.0
77.4222777173871126111534732745300130.0
76.55154331350166169552230428363230670.0
81.5241851124741233292515322183203580.0
85.2532231105523257322794220182179620.0
75.976322629968280203119017919147270.0
82.2184786878313503182414465139941.33e-111
78.380922354320134834439231110320040.0
75.782617329120747089531366271046210550.0
79.211737939514453366606706209266136580.0
77.9002086824260779628456136716116330.0
79.46129776262977632726115246112293.10e-53
82.22249559569778702676047956043023.66e-117

Координаты участка хромосомы, соответствующего контигу:2004-44693 и 604302-627104, выравнивание по - цепи, на самом деле, мы видим такую картину не из-за перенесения крупного участка генома, а из-за того, что ДНК кольцевая

Рисунок 3. Выравнивание контига 9 с хромосомой

Таблица 3. Данные о выравниваниях

% identitylengthmismatchesgap opensq. Startq. Ends. Starts. Endevalue
79.4641855333223561183345319365502190.0
80.86656559559718541241785503615559050.0
78.982168921411730812324785617415634230.0
77.80837316988532948366265638375674890.0
84.4461453220540266417155715585730070.0
73.466982556936141969515575730925826860.0
75.68427763278453245559635843295870550.0
80.50135966463823641795937435940993.79e-72

Координаты участка хромосомы, соответствующего контигу:531936-594099, выравнивание по + цепи

Таблица 4. Команды, выполненные в течение практикума

КомандаФункцияВыходные файлы
1. Подготовка чтений
gunzip SRR4240360.fastq.gzРазархивироватьSRR4240360.fastq
cat /P/y16/term3/block3/adapters/*.fa > adapters.fastaСоздать свой файл, в котором объединить все адаптерыadapters.fasta со всеми адаптерами
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240360.fastq noad_SRR4240360.fastq ILLUMINACLIP:adapters.fasta:2:7:7Удалить возможные остатки адаптеров, которые записаны в adapters.fastanoad_SRR4240360.fastq
java -jar /usr/share/java/trimmomatic.jar SE -phred33 noad_SRR4240360.fastq impr_SRR4240360.fastq TRAILING:20 MINLEN:30Запускает программу Trimmomatic. Отрезать с конца каждого чтения нуклеотиды с качеством ниже 20, оставьте чтения длиной не меньше 30 нуклеотидовimpr_SRR4240360.fastq
2. Сборка с помощью velvet
velveth /nfs/srv/databases/ngs/e.mironova/pr14 29 -short -fastq SRR4240360.fastqПодготовлены k-меры длиной k=29Файлы Log, Roadmaps и Sequences
velvetg .Сборка контигов в текущей папкеGraph, PreGraph, LastGraph, contigs.fa, stats.txt






© Миронова Екатерина 2017 год