Практикум 14.

Сборка de novo.

Таблица 1. Команды, используемые в данном практикуме
Команда Что делает
seqret '*'.fa adapters.fa Перенесла все последователььности адаптеров которые были на kodomo в свой отдельный файл
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240358.fastq trimSRR.fastq ILLUMINACLIP:adapters.fa:2:7:7 Удаление адаптеров, которые могли бы быть в прочтении
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 trimSRR.fastq finaltrimSRR.fastq TRAILING:20 MINLEN:32 Удаление плохих букв с концов чтений, остаются только чтения длиной не менее 32
velveth velveth31 31 -fastq -short finaltrimSRR.fastq Подготовление k-меров длины k=31. -short: короткие непарные чтения.velveth31: название выходной директории.
velvetg velveth31 Используя файлы директории velveth31, полученной предыдущей командой, происходит сборка k-меров.

Подготовка чтений программой trimmomatic

Удаление адаптеров. По завершению работы trimmomatic для обрезания адаптеров была получена следующая информация:
Input Reads: 10543839 Surviving: 10368883 (98,34%) Dropped: 174956 (1,66%). Т.е 1,66% последовательностей ридов оказались адаптерами.
Чистка чтений. С концов чтений были удалены нуклеотиды с качеством ниже 20 и остались только чтения длиной не меньше 32 нуклеотидов. trimmomatic рассказала, что:
Input Reads: 10368883 Surviving: 8016435 (77,31%) Dropped: 2352448 (22,69%) .
Таблица 2. Сравнение fastq файлов до и после очиcтки
Название файла Количество чтений Длина чтений Размер файла, мб
SRR4240358.fastq (исходные риды) 10543839 39 1125
trimSRR.fastq (очищенные от адаптеров) 10368883 1-39 1106
finaltrimSRR.fastq 8016435 32-39 825
Результаты  анализа до использования Trimmomatic
Результаты анализа fastQC до использования Trimmomatic (SRR4240358.fastq)
Результаты  анализа после использования Trimmomatic
Результаты анализа после обрезания ридов с использованием Trimmomatic (trimSRR.fastq)
Результаты  анализа после использования Trimmomatic
Результаты анализа после использования Trimmomatic с обрезанием концов (finaltrimSRR.fastq)

Сборка

С помощью команд velveth и velvetg была осуществлена сборка k-меров. Выдача velvetg (также последняя строчка файла Log):
Final graph has 364 nodes and n50 of 8600, max 19821, total 655702, using 0/8016435 reads
Длина и покрытие самых длинных контигов представлены в таблице 3. Медиана покрытия оказалась равна около 26,5%. Кроме того, было много контигов с "аномальными" значениями покрытия (3 из них приведены в табл.4).
Таблица 3. Описание 3х самых длинных полученных контигов
ID Длина Покрытие
57 19821 29,475859
34 18714 29,922678
41 16436 30,793624
Таблица 4. Описание полученных контигов с аномальным покрытием
ID Длина Покрытие
191 3 1
171 109 4,642202
262 1 111576

Анализ

Было произведено выравнивание трех самых длинных контигов и хромосомы Buchnera aphidicola (GenBank/EMBL AC — CP009253) с помощью megablast. Были получены карты локального сходства и проанализированы выравнивания.
Таблица 5. Анализ выравниваний
ID контига Длина Количество выравниваний Координаты в геноме Max score Query cover Identities Strand Gaps
57 19821 3 496111-514772 3949 86% 75.62% +/+ 1, 3,4%
34 18714 6 8599-26764 2278 74% 85.41% +/+ 1-3%
41 16436 2 462496-474242 3703 71% 76.76% +/- 2, 3%
Карта локального сходства
Карта локального сходства CP009253 и контига ID 57
Карта локального сходства
Карта локального сходства CP009253 и контига ID 34
Карта локального сходства
Карта локального сходства CP009253 и контига ID 41
У всех трех контигов довольно близкие значения гэпов в выравниваниях, покрытия и идентичности. По моему мнению, лучше остальных лег третий по длине контиг (с ID 41), т.к. он выровнился всего двумя кусками, которые вроде бы наложились друг на друга на 9 нуклеотидов (467.412-474.242 и 462.496-467.421), у него идентичность составляет 77%, покрытие 71%. Конечно, у контига самой большой длины (ID 57), оказалось наибольшее покрытие (86%), но он лег 3 кусками, между двумя из которых довольно большое расстояние (1632). Контиг 34, по сравнению с остальными рассмотренными, лег 6 маленькими кусочками, однако имеет низкое число гэпов в каждом из выравниваний, высокую идентичность (85.41%) и хорошее покрытие 74%.