В данном практикуме я работала с проектом по секвенированию бактерии
Buchnera
aphidicola.
Рис.1.
Бактерия Buchnera в бактериоцитах гороховой тли.
|
Бактерия Buchnera aphidicola относится к gamma-Proteobacteria, которые являются
грам-отрицательными преимущественно патогенными и азотфиксирующими бактериями. Buchnera
aphidicola — эндосимбионт тлей (насекомых, питающихся растениями). По одной из
версий предки данного вида были свободно живущими бактериями наподобие E. coli; многие
исследования подтверждают родство данного вида с семейством Enterobacteriaceae.
Для B. aphidicola характерны практически все особенности, присущие
грам-отрицательным бактериям. Однако у данного вида нет генов, кодирующих ЛПС, в связи с
чем бактерия не патогенна. Геном довольно мал (менее 1 Мб), имеется одна кольцевая хромосома
и несколько плазмид.
Так как B. aphidicola — симбионт, произошла делеция большого количества
генов (например, генов, кодирующих поверхностные белки).
Бактерия вступила в симбиотические отношения с тлей около 200-150 млн. лет назад. У насекомых
за это время появились специальные клетки — бактериоциты. Тля питается
исключительно растительной пищей, которая богата ЛПС, но почти не содержит соединений азота.
Таким образом, симбиоз выгоден как бактерии, так и насекомому2.
Мне был дан код доступа SRR4240384. По ссылке http://www.ebi.ac.uk/ena/data/view/SRR4240384
находится архив с короткими ридами, полученными по технологии Illumina.
Подготовка чтений
Сначала был скачан архив с заданными ридами, который затем был распакован в папку
/nfs/srv/databases/ngs/klukva командой
gunzip. Затем из файлов в папке с
адаптерами был создан один файл, содержащий все адаптеры, с помощью команды:
cat *.fa > /nfs/srv/databases/ngs/klukva/adapters.fasta
Из полученного файла были удалены все адаптеры командой:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240384.fastq SRR4240384_out.fastq ILLUMINACLIP:adapters.fasta:2:7:7
Input Reads: 9825592 Surviving: 9820262 (99,95%) Dropped: 5330 (0,05%)
После этого были удалены нуклеотиды с низким качеством с концов ридов и риды длиной менее
30 нуклеотидов:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240384_out.fastq reads.out TRAILING:20 MINLEN:30
Input Reads: 9820262 Surviving: 3394105 (34,56%) Dropped: 6426157 (65,44%)
В результате был получен файл
reads.out, содержащий риды после очистки. Для анализа
качества ридов до и после чистки использовалась команда:
fastqc *filename*
В таблице 1 приведена сравнительная характеристика файлов.
Таблица 1. Сравнительная характеристика ридов до и
после чистки
|
До чистки (SRR4240384.fastq) |
После чистки (reads.out) |
html-страницы с характеристиками ридов |
SRR4240384_fastqc.html |
reads.out_fastqc.html |
Общая статистика |
|
|
Качество п.н. в ридах |
|
|
Таким образом, после чистки из 9825592 ридов осталось 3394105 (34.55%), т.е. удалено было
6431487 ридов, что составляет всего 65.45% от исходного числа
ридов. При этом качество отдельных п.н. значительно повысилось. Особенно это заметно
по концевым нуклеотидам. Если посмотреть на характеристики ридов до второго этапа чистки
(
RR4240384_out_fastqc.html), то можно заметить, что,
несмотря на удаление ридов, качество п.н. в ридах осталось прежним. Улучшилось
оно уже только после непосредственного удаления ридов с низким качеством.
Использование пакета velvet
Сначала были подготовлены k-меры длины 29, риды короткие и непарные (short):
velveth velveth 29 -fastq -short reads.out
Таким образом, в директории velveth находятся все результаты работы программы. Далее были
собраны контиги на основе полученных k-меров:
velvetg velveth
В итоге было получено 2 файла:
contigs.fa содержит
последовательности контигов и
stats.txt, содержащий статистику.
Таблица 2. Описание трех самых длинных контигов
ID контига |
Длина |
Покрытие |
Файл с последовательностью |
2 |
429 |
5.26 |
con2.fa |
121 |
286 |
6.23 |
con121.fa |
7 |
219 |
5.20 |
con7.fa |
Таблица 3. Описание двух контигов с аномальным
покрытием
ID контига |
Длина |
Покрытие |
461 |
1 |
283945 |
633 |
1 |
1613 |
N50=77. Всего было найдено 873 контига. В таблице 2 описаны 3
самых длинных контига. Среди собранных контигов было 2 контига с
аномальным покрытием (в 5 раз > среднего = 216 ридам). В таблице 3 приведено их описание.
В принципе, такое большое покрытие неудивительно: длина "контигов" всего 1 нуклеотид. Не
знаю, можно ли избежать сборки таких контигов изначально, или можно только потом удалить
все контиги с длиной меньше заданной пороговой.
Контигов с аномально низким покрытием найдено не было.
Для трех самых длинных контигов был запущен
megablast с хромосомой
Buchnera
aphidicola (GenBank/EMBL AC — CP009253). НО! Blast как результат поиска выдавал "not found"
в случае всех трех контигов:(