Сборка de novo

В данном практикуме я работала с проектом по секвенированию бактерии Buchnera aphidicola.


Рис.1. Бактерия Buchnera в бактериоцитах гороховой тли.
    Бактерия Buchnera aphidicola относится к gamma-Proteobacteria, которые являются 
    грам-отрицательными преимущественно патогенными и азотфиксирующими бактериями.  Buchnera 
    aphidicola — эндосимбионт тлей (насекомых, питающихся растениями). По одной из
    версий предки данного вида были свободно живущими бактериями наподобие E. coli; многие
    исследования подтверждают родство данного вида с семейством Enterobacteriaceae. 
    
Для B. aphidicola характерны практически все особенности, присущие грам-отрицательным бактериям. Однако у данного вида нет генов, кодирующих ЛПС, в связи с чем бактерия не патогенна. Геном довольно мал (менее 1 Мб), имеется одна кольцевая хромосома и несколько плазмид.
Так как B. aphidicola — симбионт, произошла делеция большого количества генов (например, генов, кодирующих поверхностные белки).
Бактерия вступила в симбиотические отношения с тлей около 200-150 млн. лет назад. У насекомых за это время появились специальные клетки — бактериоциты. Тля питается исключительно растительной пищей, которая богата ЛПС, но почти не содержит соединений азота. Таким образом, симбиоз выгоден как бактерии, так и насекомому2.

Мне был дан код доступа SRR4240384. По ссылке http://www.ebi.ac.uk/ena/data/view/SRR4240384 находится архив с короткими ридами, полученными по технологии Illumina.



Подготовка чтений


Сначала был скачан архив с заданными ридами, который затем был распакован в папку /nfs/srv/databases/ngs/klukva командой gunzip. Затем из файлов в папке с адаптерами был создан один файл, содержащий все адаптеры, с помощью команды:
  cat *.fa > /nfs/srv/databases/ngs/klukva/adapters.fasta
Из полученного файла были удалены все адаптеры командой:
  java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240384.fastq SRR4240384_out.fastq ILLUMINACLIP:adapters.fasta:2:7:7
    Input Reads: 9825592 Surviving: 9820262 (99,95%) Dropped: 5330 (0,05%) 
После этого были удалены нуклеотиды с низким качеством с концов ридов и риды длиной менее 30 нуклеотидов:
  java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240384_out.fastq reads.out TRAILING:20 MINLEN:30
    Input Reads: 9820262 Surviving: 3394105 (34,56%) Dropped: 6426157 (65,44%) 
В результате был получен файл reads.out, содержащий риды после очистки. Для анализа качества ридов до и после чистки использовалась команда:
  fastqc *filename*
В таблице 1 приведена сравнительная характеристика файлов.
Таблица 1. Сравнительная характеристика ридов до и после чистки
До чистки (SRR4240384.fastq) После чистки (reads.out)
html-страницы с характеристиками ридов SRR4240384_fastqc.html reads.out_fastqc.html
Общая статистика
Качество п.н. в ридах


Таким образом, после чистки из 9825592 ридов осталось 3394105 (34.55%), т.е. удалено было 6431487 ридов, что составляет всего 65.45% от исходного числа ридов. При этом качество отдельных п.н. значительно повысилось. Особенно это заметно по концевым нуклеотидам. Если посмотреть на характеристики ридов до второго этапа чистки (RR4240384_out_fastqc.html), то можно заметить, что, несмотря на удаление ридов, качество п.н. в ридах осталось прежним. Улучшилось оно уже только после непосредственного удаления ридов с низким качеством.

Использование пакета velvet

Сначала были подготовлены k-меры длины 29, риды короткие и непарные (short):
  velveth velveth 29 -fastq -short reads.out
Таким образом, в директории velveth находятся все результаты работы программы. Далее были собраны контиги на основе полученных k-меров:
  velvetg velveth
В итоге было получено 2 файла: contigs.fa содержит последовательности контигов и stats.txt, содержащий статистику.

Таблица 2. Описание трех самых длинных контигов
ID контига Длина Покрытие Файл с последовательностью
2 429 5.26 con2.fa
121 286 6.23 con121.fa
7 219 5.20 con7.fa
Таблица 3. Описание двух контигов с аномальным покрытием
ID контига Длина Покрытие
461 1 283945
633 1 1613
N50=77. Всего было найдено 873 контига. В таблице 2 описаны 3 самых длинных контига. Среди собранных контигов было 2 контига с аномальным покрытием (в 5 раз > среднего = 216 ридам). В таблице 3 приведено их описание. В принципе, такое большое покрытие неудивительно: длина "контигов" всего 1 нуклеотид. Не знаю, можно ли избежать сборки таких контигов изначально, или можно только потом удалить все контиги с длиной меньше заданной пороговой.
Контигов с аномально низким покрытием найдено не было.

Для трех самых длинных контигов был запущен megablast с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). НО! Blast как результат поиска выдавал "not found" в случае всех трех контигов:(
© Mishchenko Polina 2016