Сборка генома de novo
Сборка генома de novo
С помощью кода доступа SRR4240379 я скачала fastq-файл проекта по секвенированию бактерии Buchnera aphidicola.
1. Подготовка чтений программой trimmomatic
Прежде всего был скачан архив с прочтениями, затем распакован командой gunzip в папку /nfs/srv/databases/ngs/ulyana/pr15.
Все адаптеры для Illumina из файлов в директории /P/y15/term3/block4/adapters были объединены в один файл adapters.fasta командой
cat /P/y15/term3/block4/adapters/*fa >> /nfs/srv/databases/ngs/ulyana/pr15/adapters.fasta
.
Далее командой
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240379.fastq srr_out.fastq ILLUMINACLIP:adapters.fasta:2:7:7
были удалены возможные остатки адаптеров.
С концов чтений были удалены плохие буквы, оставлены только чтения не менее 30. Программа
java -jar /usr/share/java/trimmomatic.jar SE -phred33 srr_out.fastq trimm.out TRAILING:3 MINLEN:30
.
принимает на вход файл srr_out.fastq, полученный на предыдущем этапе,
удаляет прочтения короче 30 (MINLEN:30) и удаляет нуклеотиды ниже качества "3" с конца прочтений (TRAILING:3).
В результате получен файл trimm.out.
Чтобы сравнить качество прочтений до и после очистки, я использовала команду fastqc, в результате работы которой были получены 2 html страницы:
SRR4240379_fastqc.html и trimm.out_fastqc.html.
После очистки осталось 6993284 чтний из 7400155 изначальных. Результаты представлены на рис. 1 и 2. Видно, что качество чтений улучшилось.
|
Рис. 1 Per base sequence quality до очистки |
|
Рис. 2 Per base sequence quality после очистки |
2. Работа с программой velveth
Для подготовки k-меров длиной 29 была использована команда
velveth k_mer 29 -fastq -short trimm.out,
где k_mer - название папки для записи выходных файлов. Длина k-меров равно 29, -short задает, что чтения короткие и непарные, -fastq, что входные файлы задаются в соответствующем формате.
Входной файл trimm.out содержит очищенные чтения.
В результате, в директории k_mer оказались результаты работы программы.
3. Сборка на основе k-меров с помощью программы velvetg
Данная программа строит и анализирует граф де-Брёйна (как и предыдущая - velveth), где k-меры играют роль вершин.
Контиги на основе 29-меров были собраны командой velvetg k_mer.
Получено 2 файла: contigs.fa с последовательностями контигов и stats.txt, со статистикой.
Всего было найдено 974 контигов. N50 составляет 31053 (прочтением такой длины можно покрыть больше половины генома). Информация о 3-х самых длинных контигах представлена с таблице №1.
Если считать типичным покрытие равное 9 (медиана), то аномально больших покрытий довольно много. В таблице № 2 приведены несколько таких примеров.
Также есть несколько контигов со значением покрытия inf, что, вероятно, является результатом ошибки работы программы.
Аномально малых покрытий не было обнаружено.
Таблица №1 Информация о самых длинных контигах |
||
ID | Длина | Покрытие |
5 | 82103 | 47,938394 |
2 | 70497 | 49,611544 |
10 | 43532 | 50,862607 |
Таблица №2 Информация о контигах с аномально большим покрытием |
||
ID | Длина | Покрытие |
890 | 1 | 643980 |
55 | 278 | 220,661871 |
4. Анализ
Для трех самых длинных контигов был запущен megablast с хромосомой бактерии Buchnera aphidicola (GenBank/EMBL AC — CP009253). Выравниваяния имею хорошие показатели (таблица №3).
Таблица №3 Характеристика выравниваний некоторых контигов с заданной хромосомой |
||||||
ID контига | Контиг | Расположение на хромосоме | Query cover | Identity | E value | Выравнивание |
5 | con5.fa | 467412-474667 500370-508806 510438-516539 523105-528679 462496-467421 481997-488106 474844-480660 517766-521500 496111-500325 451729-454069 |
69% | 77% | 0.0 | al_con5.txt |
2 | con2.fa | 528977-550219 550361-555887 573092-582686 563837-567489 571558-57307 584329-587055 561741-563423 593743-594099 |
65% | 81% | 0.0 | al_con2.txt |
10 | con10.fa | 11103-2004 620926-613658 604795-599832 627104-621055 613671-611633 14229-13994 611524-611229 |
68% | 78% | 0.0 | al_con10.txt |
55 | con55.fa | - | 64% | 83% | 0.012 | al_con55.txt |
Что касается аномально длинных контигов, то я сделала выравнивание только одного из них, 55-го, поскольку для другого это бессмысленно, учитывая его длину. Однако, алгоритмы megablast и даже discontiguous megablast не нашли достаточно сходных последовательностей во всем геноме, чтобы построить выравнивание. Поэтому я использовала алгоритм blastn. Характеристики полученного выравнивания также представлены в таблице №3. Как видно, значение e value слишком высокое, чтобы считать выравнивание достоверным. Вероятно, покрытие такое большое из-за малой длины контига: высока вероятность случайного соответствия. По этой же причине я не привожу координаты данного контига на хромосоме.