1) Был выдан код доступа проекта по секвенированию бактерии Buchnera aphidicola
Проект доступен по данному адресу: ссылка.
На странице проекта был скачен архив формата fastq.
Далее файл был перенесен в рабочую директорию /nfs/srv/databases/ngs/asya.kalashnikova.
И был распакован с помощью команды (1)
Были получен файл: SRR4240388.fastq.
2) Подготовка чтений программой trimmomatic: Необходимо было удалить возможные остатки адаптеров (ILLUMINACLIP:adapters.fasta:2:7:7, где adapters.fasta - файл с адаптерами), а также удалить плохие буквы с конца чтений, оставив чтения длиной не менее 30. Это было сделано с помощью команды (2). Предварительно был создан файл adapters.fasta, состоящий из объединения всех адаптеров из файлов из директории /P/y15/term3/block4/adapters. До чистки: размер - 1157 Mb, количество чтений - 10833163. После чистки: размер - 745 Mb, количество чтений - 7335602 (67,71%). Таким образом, было удалено в процессе чистки: 3497561 (32,29%). 3) В данном задании необходимо было запустить velveth так, чтобы она подготовила k-меры длины k=29. Это было сделано с помощью команды (3), где "short" - обозначает короткие и непарные чтения, а 2-ое "velveth" - директорию, куда будут записываться файлы. Было получено 3 файла: Log; Sequences; Roadmaps. 4) Здесь нужно было воспользоваться программой velvetg, которая осуществляет сборку на основе k-меров. Была запущена команда (4). Всего контигов: 1248; N50: 3376 bp; Общая длина данной последовательности: 664886. Максимальная длина контига: 16590; Среднее покрытие: 594,55. |
Таблица 1. Самые длинные контиги
Контиг (ID) | Длина | Покрытие |
34 | 16590 | 42.634720 |
41 | 16373 | 49.329995 |
26 | 14691 | 55.265264 |
Таблица 2. Контиги с аномально большим покрытием
Контиг (ID) | Длина | Покрытие |
1172 | 1 | 595570 |
1206 | 1 | 4793 |
Ссылка на таблицу Excel с полученными данными 5) Анализ: были получены файлы последовательностей 3 самых длинных контигов: contig_34.fasta, contig_41.fasta, contig_26.fasta. Далее было необходимо сравнить программой megablast каждый из 3 контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Для этого был выставлен параметр: "Align two or more sequences". В таблице 3 представлена информация по выравниваниям одного из длиннейших контига/хромосомы Для контигов с аномально большим покрытием выравнивания построены не были из-за их единичной длины. Вероятность перекрытия короткого участка намного выше, нежелели длинного, поэтому короткие участки намного чаще имеют больший показатель покрытия. |
Таблица 3. Характеристика выравниваний контигов/хромосомы
Контиг (ID) | Координаты участка хромосомы, соответствующего контигу | Gaps | E-value | Query cover | Ident | Total score |
26 | 147305-151796, 153752-161738, |
63/4524(1%), 270/8171(3%) | 0.0 | 1% | 78% | 8301 |
34 | 324950-326950, 327227-330003, 333222-339010 |
65/2034(3%), 109/2828(3%), 187/5897(3%) | 0.0 | 1% | 76% | 5164 |
41 | 2004-9059, 621055-627107 |
204/7154(2%), 246/6176(3%) | 0.0 | 2% | 78% | 7344 |
Рис. 1 - Выравнивание контига_26/хромосомы
![]() |
Рис. 2 - Выравнивание контига_34/хромосомы
![]() |
Рис. 3 - Выравнивание контига_41/хромосомы
![]() |
(1) gunzip SRR4240388.fastq.gz
(2) java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240388.fastq bacteria.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30 (3) velveth velveth 29 -short -fastq bacteria.fastq (4) velvetg velveth |
---|
© Kalashnikova Anastasia, 2016