Сборка генома de novo.

Сначала с помощью кода доступа SRR4240356 (в моем случае) был скачан файл проекта секвенирования бактерии Buchnera aphidicola в формате fastq. Эта бактерия относится к Протеобактериям и является эндосимбионтом тлей.

1. Подготовка чтений программой trimmomatic:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240381.fastq trimm.fastq MINLEN:30 TRAILING:3 ILLUMINACLIP:adapters.fasta:2:7:7

SRR4240356.fastq - входной файл trimm.fastq - выходной файл
MINLEN:30 - удаляет прочтения короче 30
TRAILING:3 - удаляют нуклеотиды ниже качества равного 3-м с конца прочтения
adapters.fasta - файл со всеми адаптерами для Illumina.
ILLUMINACLIP:adapters.fasta:2:7:7 - вырезает адаптеры, со значениями: 2 - отдельные несовпадения, 7 - порог для палиндромной шпильки, 7 - порог для простой шпильки.

Изначально было 13710994 ридов, осталось 13686784 (99.82%), т.е. удалено 24210 (0.18%).

2. Запуск программы velveth для подготовки k-меров:

velveth k_mer 29 -short -fastq trimm.fastq

k_mer - название папки, куда будут записаны выходные файлы
29 - длина k-меров
-short - чтения короткие и не парные
-fastq - входные файл такого формата
trimm.fastq - входной файл с очищенными чтениями.

3. Запуск программы velvetg для сборки на основе k-меров:

velvetg k_mer

Таблица 1. Итоги работы программы velvetg

Финальное число контиговN50 (bp)Длины 3-х самых длинных контигов (bp)Покрытия самых длинных контигов
10964382(ID) длина:
(40) 32871,
(3) 32458,
(37) 30035.
73.918925,
55.612484,
63.601032.

Среднее значение покрытия - 36.47474235; медиана - 5.3407365. Есть много контигов с аномально большим покрытием и много с аномально меленьким. Например, контиг с ID 9424 имеет покрытие 127382 при длине 1, контиг с ID 149 - 761.344828 при длине 58, контиг с ID 129 - 538.529412 при длине 85 а контиг с ID 10154 имеет покрытие 1 с длиной 1.

4. Анализ длинных контигов и контигов с аномально большим покрытием:

Таблица 2. Результаты сравнения контигов с хромосомой Buchnera aphidicola с помощью megablast.

ID контигаЕго особенностьКоординаты участка хромосомы, соответствующие контигу (достаточно длинные участки) Идентичность выравнивания Число гэпов в выранивании
40Самый длинный контиг1)532032 - 556774
2)557063 - 561570
3)561741 - 563871
1)19775/25182(79%)
2)3444/4587(75%)
3)1658/2234(74%)
1)607/25182(2%)
2)164/4587(3%)
3)138/2234(6%)
32-ой по длине1)141477 - 160355
2)127825 - 140555
3)141310 - 142652
1)14432/19261(75%)
2)9527/12902(74%)
3)1012/1405(72%)
1)623/19261(3%)
2)332/12902(2%)
3)78/1405(5%)
373-ий по длине1)5898 - 13688
2)14711 - 20214
3)23067 - 29314
4)30028 - 35058
5)20358 - 22991
6)13994 - 14510
1)6119/7868(78%)
2)4388/5578(79%)
3)4765/6363(75%)
4)3805/5122(74%)
5)2089/2706(77%)
6)420/524(80%)
1)120/7868(1%)
2)142/5578(2%)
3)156/6363(2%)
4)180/5122(3%)
5)88/2706(3%)
6)10/524(1%)

Поскольку контиги с аномально большим покрытием имеют маленькую длину, бласт не мог адекватно выровнять их (выравнивал их с множеством абсолютно разных частей хромосомы).

Рисунок 1. Выравнивания 40-го контига по хромосоме.

Рисунок 2. Выравнивания 3-го контига по хромосоме.

Рисунок 3. Выравнивания 37-го контига по хромосоме.

Как видно из таблицы 2 и рисунков, 40-й контиг выравнивается с участком хромосомы 530-565 kbp, 3-й - 120-145 kbp и 37-й - 5-35 kbp.