Сборка генома de novo.
Сначала с помощью кода доступа SRR4240356 (в моем случае) был скачан файл проекта секвенирования бактерии Buchnera aphidicola в формате fastq. Эта бактерия относится к Протеобактериям и является эндосимбионтом тлей.
1. Подготовка чтений программой trimmomatic:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240381.fastq trimm.fastq MINLEN:30 TRAILING:3 ILLUMINACLIP:adapters.fasta:2:7:7
SRR4240356.fastq - входной файл
trimm.fastq - выходной файл
MINLEN:30 - удаляет прочтения короче 30
TRAILING:3 - удаляют нуклеотиды ниже качества равного 3-м с конца прочтения
adapters.fasta - файл со всеми адаптерами для Illumina.
ILLUMINACLIP:adapters.fasta:2:7:7 - вырезает адаптеры, со значениями: 2 - отдельные несовпадения, 7 - порог для палиндромной шпильки, 7 - порог для простой шпильки.
Изначально было 13710994 ридов, осталось 13686784 (99.82%), т.е. удалено 24210 (0.18%).
2. Запуск программы velveth для подготовки k-меров:
velveth k_mer 29 -short -fastq trimm.fastq
k_mer - название папки, куда будут записаны выходные файлы
29 - длина k-меров
-short - чтения короткие и не парные
-fastq - входные файл такого формата
trimm.fastq - входной файл с очищенными чтениями.
3. Запуск программы velvetg для сборки на основе k-меров:
velvetg k_mer
Таблица 1. Итоги работы программы velvetg
Финальное число контигов | N50 (bp) | Длины 3-х самых длинных контигов (bp) | Покрытия самых длинных контигов |
---|---|---|---|
10964 | 382 | (ID) длина: (40) 32871, (3) 32458, (37) 30035. | 73.918925, 55.612484, 63.601032. |
Среднее значение покрытия - 36.47474235; медиана - 5.3407365. Есть много контигов с аномально большим покрытием и много с аномально меленьким. Например, контиг с ID 9424 имеет покрытие 127382 при длине 1, контиг с ID 149 - 761.344828 при длине 58, контиг с ID 129 - 538.529412 при длине 85 а контиг с ID 10154 имеет покрытие 1 с длиной 1.
4. Анализ длинных контигов и контигов с аномально большим покрытием:
Таблица 2. Результаты сравнения контигов с хромосомой Buchnera aphidicola с помощью megablast.
ID контига | Его особенность | Координаты участка хромосомы, соответствующие контигу (достаточно длинные участки) | Идентичность выравнивания | Число гэпов в выранивании |
---|---|---|---|---|
40 | Самый длинный контиг | 1)532032 - 5567742)557063 - 561570 3)561741 - 563871 | 1)19775/25182(79%)2)3444/4587(75%)3)1658/2234(74%) | 1)607/25182(2%)2)164/4587(3%)3)138/2234(6%) |
3 | 2-ой по длине | 1)141477 - 1603552)127825 - 1405553)141310 - 142652 | 1)14432/19261(75%)2)9527/12902(74%)3)1012/1405(72%) | 1)623/19261(3%)2)332/12902(2%)3)78/1405(5%) |
37 | 3-ий по длине | 1)5898 - 136882)14711 - 202143)23067 - 29314 4)30028 - 350585)20358 - 229916)13994 - 14510 | 1)6119/7868(78%)2)4388/5578(79%)3)4765/6363(75%)4)3805/5122(74%) 5)2089/2706(77%)6)420/524(80%) | 1)120/7868(1%)2)142/5578(2%)3)156/6363(2%)4)180/5122(3%)5)88/2706(3%) 6)10/524(1%) |
Поскольку контиги с аномально большим покрытием имеют маленькую длину, бласт не мог адекватно выровнять их (выравнивал их с множеством абсолютно разных частей хромосомы).
Рисунок 1. Выравнивания 40-го контига по хромосоме.
Рисунок 2. Выравнивания 3-го контига по хромосоме.
Рисунок 3. Выравнивания 37-го контига по хромосоме.
Как видно из таблицы 2 и рисунков, 40-й контиг выравнивается с участком хромосомы 530-565 kbp, 3-й - 120-145 kbp и 37-й - 5-35 kbp.