Сборка генома de novo.

Мне был выдан код доступа проэкта по секвенированию бактерии Buchnera aphidicola - SRR4240359. Со страницы проэкта я скачала архив SRR4240359.fastq.gz и распаковала его командой: gunzip SRR4240359.fastq.gz. Был получен файл с чтениями: SRR4240359.fastq.

1. Подготовка чтений программой trimmomatic.

Удаление возможных остатков адаптеров. Адаптеры для Illumina из файлов директории /P/y15/term3/block4/adapters были собраны в один файл adapters.fasta.

Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359.fastq SRR4240359_ad.fastq ILLUMINACLIP:adapters.fasta:2:7:7

Получен файл: SRR4240359_ad.fastq

Было чтений 13557938, осталось 13502066 (99,59%), удалено 55872. Размер файла SRR4240359.fastq 1375 Мбайт, файла SRR4240359_ad.fastq 1369 Мбайт.

Удаление плохих букв с концов чтений. Необходимо оставить чтения длиной не менее 30.

Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359_ad.fastq SRR4240359_trim.fastq TRAILING:20 MINLEN:30

Получен файл: SRR4240359_trim.fastq

Было чтений: 13502066, осталось: 12549389 (92,94%), удалено: 952677 (7,06%). Размер входного файла 1369 Мбайт, выходного 1256 Мбайт.

2. Подготовка k-меров. Использовалась программа velveth, для того чтобы подготовить k-меры длины k=29 (максимально возможной при нашей длине чтений). Наши чтения короткие и не парные (short). Программа velveth из нескольких последовательностей строит хеш-таблицу.

Команда: velveth velveth 29 -fastq -short SRR4240359_trim.fastq. Второй параметр обозначает папку, в которую записываются файлы выдачи. Третий параметр - необходимая длина k. Четвертый параметр - формат входного файла. Пятый параметр длина k-мера.

Получена папка velveth с файлами: Log, Roadmaps, Sequences.

3. Сборка на основе k-меров (программа velvetg).

Команда: velvetg velveth

Программа velvetg строит граф де Брёйна, он отражает пересечения в последовательностях символов.

Получены файлы: contigs.fa ; PreGraf; Graf; LastGraf; stats.txt.

Файл stats.txt содержит информациюо вершинах графа. Файл contigs.fa содержит информацию о контигах длины не менее 29.

В нашем графе 2051 вершина, N50=47361, max 91528, total 723201, using 0/12549389 reads.

Самые длинные контиги.
ID длина покрытие sequence
1 78160 57.461807 1
3 83127 51.228207 3
4 91582 53.878651 4

Всего контигов 637. Средняя длина 1127,222295. Среднее покрытие 10,27608742. Информация обо всех контигах в файле contigs.xlsx .

Контиги с аномально большим и маленьким покрытием
ID покрытие длина sequence
13 118,96048 2657 13
53 115,948784 410 53
62 1,465517 58
896 1,377049 61

4. Анализ

Программой megablast я сравнила три самых длинных контига и два с наибольшим покрытием с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).

Сравнение самых длиных контигов с хромосомой Buchnera aphidicola
ID контига Координаты участка хромосомы Max score Total score Query cover E value Identities Matches Gaps
1 127825 to 140555 5465 24306 56% 0.0 75% 7 548/13010(4%)
3 333222 to 341508 3989 30541 71% 0.0 76% 18 280/8459(3%)
4 389348 to 398726 3605 28072 51% 0.0 74% 18 363/9592(3%)

*в таблице координаты указаны для одного match.

Для контигов с аномально большим покрытием программа не нашла совпадений (No significant similarity found.). В программе сказано, что причиной этого может являтся очень короткие query последовательности, или фильтрация участков малой сложности.

Ссылки:

На страницу 3 семестра

На главную


© Кузнецова Ксения, 2015