Учебный сайт Сергея Пушкарева

Навигация по сайту:

Сборка генома de novo

Подготовка чтений

Отрезаем адаптеры:

java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 ../init/SRR4240359.fastq adapters_removed.fastq ILLUMINACLIP:../adapters/adapters.fasta:2:7:7

Результат: осталось 13502036 (99,59%) ридов, 55902 (0,41%) отфильтровались.
Размер файла со чтениями до: 1375Мб, после: 1369Мб.

Избавляемся от коротких и плохих чтений:

java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 ../remove_adapters/adapters_removed.fastq trimmed.fastq TRAILING:20 MINLEN:30

Результат: выжило 12549379 (92,94%) ридов, удалено 952657 (7,06%).
Размер файла со чтениями до: 1369Мб, после: 1256Мб.

Контиги, построенные с помощью velvetg

Чтобы получить "типичное" покрытие нужно сначала избавиться от артефактов: для k=25 9389 контигов из 10168 имеют длину менее 100bp и не очень информативны, для k=29 аналогичный показатель составил 1818 контигов из 2028. В качестве покрытия был взять показатель short1_cov.

Результаты работы velvetg для разной длины k-меров.
k=25 k=29
Число контигов >100bp 779 210
N50 3176 47361
Среднее покрытие 33,12 15,91
Медианное покрытие 6,16 5,58
Три самых длинных контига 17922
17615
17146
91528
83127
78160
Таблица Excel ссылка ссылка

В качестве типичного покрытия наверное было бы разумным взять медианное покрытие. Относительно него все три самых длинных контига являются аномально покрытыми: ~90 для k=25 и ~54 для k=29.

Сравнивая результаты для разных k, можно сделать вывод, что velvetg очень чувствителен к выбору длины слова: в одном случае получилось много коротких контигов с чуть лучшим покрытием(k=25), в другом получились большие контиги с чуть более слабым покрытием(k=29).

Анализ трех самых длинных контигов для k=29

Последовательности контигов можно найти на kodomo по адресу /nfs/srv/databases/ngs/spush/pr14/

Как я случайно сделал задание не для того генома

Не увидев сразу на какой геном нужно накладывать контиг, я начал искать сборку генома организма, указанного в проекте секвенирования(SRR4240359). Перешел по "scientific name" организма. На странице организма (ссылка) ->Portal->Assembly->Chromosomes. Получил AC CP001158.1. На него blast-ом положил наши контиги и получил очень красивые картинки, в которых контиги легли линейно(без повторов):

  1. Identities: 91532/91561(99%), Gaps: 20/91561(0%), число несовпадений: 9, контиг покрывает 14% генома.
    Координаты на хромосоме: 367409:458954. Здесь контиг лег на геном в инвертированном виде: конец контига является началом выравнивания.

    Контиг длины 91528, выравненный с геномом CP001158.1.
  2. Identities: 83152/83163(99%), Gaps: 8/83163(0%), число несовпадений: 3, контиг покрывает 12% генома.
    Координаты на хромосоме: 276657:359819

    Контиг длины 83127, выравненный с геномом CP001158.1.
  3. Identities: 78186/78188(99%), Gaps: 0/78188(0%), число несовпадений: 2, контиг покрывает 12% генома.
    Координаты на хромосоме: 110341:188528

    Контиг длины 78160, выравненный с геномом CP001158.1.

Как я сделал то, что требовалось в задании

Геном CP001158.1, найденный мной, и CP009253, предложенный нам в задании, являются геномами разных штаммов одной бактерии и, возможно, отличаются не сильно. Несмотря на то что контиг выравнялся с геномом в виде отдельных фрагментов, образовавшаяся картина очень напоминает полученную выше. Контиги все так же ложатся без повторов, линейно. Ниже привожу некоторую общую статистику по всем выравненным участкам, полученную из hit table.

  1. Число фрагментов: 19. Среднее Identities: 79,88%, суммарное число открытий гэпов: 1190, суммарное число несовпадений: 9539, суммарная длина выравниваний 49521.
    Координаты на хромосоме взяты как начало и конец соответствующих крайних контигов: 361926:445895. Как и в случае с CP001158.1 наблюдаем инверсию контига при его выравнивании на геном.
    Ссылка на таблицу Excel с подробным описанием каждого выравнивания(из hit table).

    Контиг длины 91528, выравненный с геномом CP009253.
  2. Число фрагментов 17. Среднее Identities: 76,52%, суммарное число открытий гэпов: 1646 , суммарное число несовпадений: 12180 , суммарная длина выравниваний 60141 .
    Координаты на хромосоме взяты как начало и конец соответствующих крайних контигов: 273055 :352456 .
    Ссылка на таблицу Excel с подробным описанием каждого выравнивания(из hit table).

    Контиг длины 83127, выравненный с геномом CP009253.
  3. Число фрагментов 7. Среднее Identities: 78,02%, суммарное число открытий гэпов: 1123 , суммарное число несовпадений: 8916 , суммарная длина выравниваний 45000 .
    Координаты на хромосоме взяты как начало и конец соответствующих крайних контигов: 126623 :185289 .
    Ссылка на таблицу Excel c подробным описанием каждого выравнивания(из hit table).

    Контиг длины 78160, выравненный с геномом CP009253.

Полученные карты локального сходства свидетельствуют о том, что у штамма с геномом CP009253 есть множественные индели, отличающие его от штамма с геномом CP001158.1.

© Пушкарев Сергей, 2018