Главная Oбо мне Семестры Контактная информация

Практикум 14. Сборка генома de novo.

Задание 1. Подготовка чтений программой trimmomatic.

В качестве объекта использовался проект по секвенированию бактерии Buchnera aphidicola с кодом доступа SRR4240389. Риды в проекте были получены с помощью технологии Illumina, особенностью которой являются короткие риды(36 нуклеотидов). Был скачан fastq файл, и распакован с помощью команды gunzip SRR4240389.fastq.gz.

Прежде всего были удалены возможные остатки адаптеров. Для этого использовала следующую команду: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240389.fastq SR89.fastq ILLUMINACLIP:adapters.fa:2:7:7, где adapters.fa – файл с адаптерами.

Input Reads: 12950609
Surviving: 12947338 (99,97%)
Dropped: 3271 (0,03%)
Адаптеры для Illumina были взяты в директории /P/y16/term3/block3/adapters. С помощью команд:
  1. ls > 1.txt - создан список файлов
  2. seqret @1.txt -outseq adapters.fa - адаптеры объединены в 1 файл

После этого удалила плохие буквы с концов чтений, оставив только чтения длиной не менее 30, с помощью команды: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SR89.fastq SR89mr30.fastq TRAILING:20 MINLEN:30

Input Reads: 12947338
Surviving: 6344028 (49,00%)
Dropped:6603310 (51,00%)

Задание 2. Программа velveth.

Запустила программу velveth, чтобы она подготовила k-меры длины k=29 (максимально возможной при нашей длине чтений). Команда: velveth velveth 29 -fastq -short SR89mr30.fastq

Задание 3. Программа velvetg.

Запустила программу velvetg (сборка на основе k-меров): velvetg velveth.

Таблица 3. Описание контигов

IDдлинапокрытие
36 15093 37.135096
2 11042 47.141188
62 10741 38.155386

Финальный граф содержит 1147 вершины(контигов), n50=2984.

Аномально большое покрытие - 997, аномально маленькое - 1.

Задание 4. Анализ.

Контиг 36.

Покрывает последовательность с 534978 до 546014

Описание Mаксимальный счетОбщий счет покрытие E value идентичность
Buchnera aphidicola (Aphis glycines) штамм BAg, полный геном 7262 14513 99% 0.0 79% CP009253.1

Контиг 2.

Покрывает последовательность с 621055 до 627104

Описание Mаксимальный счетОбщий счет покрытие E value идентичность
Buchnera aphidicola (Aphis glycines) штамм BAg, полный геном 2907 10262 62% 0.0 76% CP009253.1

Контиг 62.

Покрывает последовательность с 584329 дo 587055

Описание Mаксимальный счетОбщий счет покрытие E value идентичность
Buchnera aphidicola (Aphis glycines) штамм BAg, полный геном 1279 4757 49% 0.0 76% CP009253.1

© Чашникова Анастасия, 2016