Учебный сайт студента ФББ МГУ

Киселёв Матвей Олегович

Отчёт о практикуме 15

Анализ сборки генома Buchnera aphidicola, штамм Tuc7

Простите, изображение не загрузилось :( Проверьте подключение к сети
Гороховая тля (Acyrthosiphon pisum) на горохе посевном. Юго-Восточная Франция. Фотограф Alexis Isu (Наблюдение INaturalist)

Даны одиночные (single-end) чтения генома Buchnera aphidicola штамма Tuc7, симбионта гороховой тли, длины 39 bp.

С помощью trimmomatic:

- удалим возможные остатки адаптеров;

- удалим с правых концов чтений нуклеотиды с качеством PHRED ниже 20;

- оставим только такие чтения, длина которых не меньше 32 нуклеотидов.

Сделаем это так:

TrimmomaticSE -threads 16 SRR4240379.fastq.gz trimmed_reads.fq.gz ILLUMINACLIP:adapters.fa:2:7:7 TRAILING:20 MINLEN:32

Исходно чтений: 7 400 155; Осталось после тримминга: 6 974 267 (94.24%); Удалено: 425 888 (5.76%).

Размер файла до очистки: 763 862 КВ

Размер файла после очистки: 718 297 КВ

Процент чтений, оказавшихся остатками адаптеров: 5.76%

Подготовим k-меры длины 31 из фильтрованых чтений:

velveth k_mers 31 -fastq -short trimmed_reads.fq

Теперь начнём сборку de-novo:

velvetg k_mers/

Сортировал файл с информацией о контигах в Excel.

Вот, что получилось:

N50 = 25 646.

3 самых длинных контига и их покрытия:

5) 49 912 bp, 35.907237;

6) 49 262 bp, 34.772177;

9) 33 085 bp, 36.259030.

Среди контигов встречаются те, покрытие которых выходит за рамки субъективного среднего. Таковы, например:

- Контиг 30, длина 2083 bp, покрытие 172,516083;

- Контиг 39, длина 609 bp, покрытие 177,170772.

Попробуем установить локализацию трёх самых длинных из получившихся контигов в геноме Buchnera aphidicola (CP009253.1) с помощью NCBI Megablast (ссылка).

5 контиг: 4 находки
Находка Регион выравнивания в референсной хромосоме Качество выравнивания (alignment score) в битах, в скобках - программное значение E-value Совпадающих позиций (шт. и в процентах от длины всего выравнивания) Гэпов (шт. и в процентах от длины всего выравнивания Направление (контига/референса). П - прямое относительно исходных данных, ОК - обратно-комплементарное
1 467412 - 474667 4050 (2193) 0.0 5691/7388 (77%) 208/7388 (2%) П/П
2 462496 - 467421 2719 (1472) 0.0 3861/5015 (77%) 162/5015 (3%) П/П
3 474844 - 480660 2248 (1217) 0.0 4431/5974 (74%) 255/5974 (4%) П/П
4 451729 - 454069 1317 (713) 0.0 1827/2370 (77%) 55/2370 (2%) П/П
6 контиг: 5 находок
Находка Регион выравнивания в референсной хромосоме Качество выравнивания (alignment score) в битах, в скобках - программное значение E-value Совпадающих позиций (шт. и в процентах от длины всего выравнивания) Гэпов (шт. и в процентах от длины всего выравнивания Направление (контига/референса). П - прямое относительно исходных данных, ОК - обратно-комплементарное
1 127825 - 140555 5421 (2935) 0.0 9741/13008 (75%) 544/13008 (4%) П/П
2 153752 - 161738 4747 (2570) 0.0 6347/8169 (78%) 266/8169 (3%) П/П
3 144368 - 151796 4423 (2395) 0.0 5863/7536 (78%) 243/7536 (3%) П/П
4 161898 - 166752 3421 (1852) 0.0 3910/4912 (80%) 108/4912 (2%) П/П
5 166750 - 173180 3290 (1781) 0.0 4965/6517 (76%) 159/6517 (2%) П/П
9 контиг: 10 находок
Находка Регион выравнивания в референсной хромосоме Качество выравнивания (alignment score) в битах, в скобках - программное значение E-value Совпадающих позиций (шт. и в процентах от длины всего выравнивания) Гэпов (шт. и в процентах от длины всего выравнивания Направление контига/референса. П - прямое относительно исходных данных, ОК - обратно-комплементарное
1 500370 - 508806 3949 (2138) 0.0 6516/8617 (76%) 351/8617 (4%) П/П
2 510438 - 516539 3932 (2129) 0.0 4897/6234 (79%) 187/6234 (2%) П/П
3 523105 - 528679 3016 (1633) 0.0 4369/5685 (77%) 207/5685 (3%) П/П
4 481997 - 488106 2278 (1233) 0.0 4621/6238 (74%) 308/6238 (4%) П/П
5 517766 - 521500 2122 (1149) 0.0 2922/3783 (77%) 101/3783 (2%) П/П
6 496111 - 500325 1921 (1040) 0.0 3255/4324 (75%) 154/4324 (3%) П/П
7 493487 - 494864 1020 (552) 0.0 1109/1384 (80%) 13/1384 (0%) П/П
8 480874 - 481545 573 (310) 7e-163 564/686 (82%) 20/686 (2%) П/П
9 528794 - 529211 385 (208) 3e-106 357/425 (84%) 26/425 (6%) П/П
10 495033 - 495148 150 (81) 1e-35 108/120 (90%) 5/120 (4%) П/П
Простите, изображение не загрузилось :( Проверьте подключение к сети
Выравнивание 5 контига
Простите, изображение не загрузилось :( Проверьте подключение к сети
Выравнивание 6 контига
Простите, изображение не загрузилось :( Проверьте подключение к сети
Выравнивание 9 контига

Теперь в качестве эксперимента попробуем провести сборку? разбив чтения на k-меры длиной 27:

velveth 27 27 -fastq -short trimmed_reads.fq
velvetg 27

Сортировал файл с информацией о контигах в Excel.

N50 = 12 512.

3 самых длинных контига и их покрытия:

58 136 bp, 62.474267;

33 699 bp, 60.758450;

28 990 bp, 63.530700.

Значение N50 снизилось, хотя длина наибольшего контига стала больше. Всё-таки в данном случае лучше собирать геном с более длинными k-мерами.