Сборка генома de novo
В данном практикуме необходимо было работать с проектом по секвенированию
бактерии Buchnera aphidicola.
Эмбрион тли (его клетки окрашены синим) содержит крупные
специализированные клетки — бактериоциты, в которых живут
симбиотические бактерии Buchnera (зеленые).
Бактерия Buchnera aphidicola относится к gamma-Proteobacteria, которые
являются грам-отрицательными преимущественно патогенными и азотфиксирующими
бактериями. Buchnera aphidicola также являюется первичным эндосимбионтом
гороховых тлей Acyrthosiphon pisum. Основной источник пищи Acyrthosiphon
pisum - соки растений, поэтому у них естественным образом возникает дефицит
незаменимых аминокислот. Решением этой проблемы стал симбиоз c Buchnera,
возникший примерно 200-150 миллионов лет назад. В результате такого
симбиоза Buchnera aphidicola утратили значительную часть генома и многие
ферменты, жизненно важные для свободноживущих бактерий. Геном довольно-таки
мал (менее 1 Мб), имеется одна кольцевая хромосома и несколько плазмид.
Мне был дан код доступа SRR4240385.
По ссылке
находится архив с
короткими (длины 36) ридами, полученными по технологии Illumina.
На странице проекта я скачала fastq - файл в виде архива (.gz) и перенесла
его в рабочую директорию (/nfs/srv/databases/ngs/mice.fatmer/pr15), после
чего распаковала программой gunzip.
команда: gunzip SRR4240385.fastq.gz
Полученный файл: SRR4240385.fastq
Далее программой FastQC был проведен анализ качества чтений
команда: fastqc SRR4240385.fastq
В результате работы программы был получен архив (.zip) и отчет о
результатах работы в виде html страницы [
SRR4240385.fastqc.html
]
Анализ качества ридов дал, мягко говоря, неутешительные результаты. Такое
качество прочтений вполне можно назвать непригодным для работы.
Отсюда возникает необходимость в дальнейшей очистке ридов.
Подготовка прочтений
Из файлов в папке с адаптерами (/P/y15/term3/block4/adapters) в рабочей
директории (/nfs/srv/databases/ngs/mice.farmer) был создан один файл,
содержащий все адаптеры
команда: cat *.fa > /nfs/srv/databases/ngs/mice.farmer/adapters.fasta
В результате получился файл adapters.fasta, который был перенесен в папку
pr15 этой директории.
После чего из полученного ранее файла SRR4240385.fastq были удалены все
адаптеры команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33
SRR4240385.fastq SRR4240385_nonadapt.fastq
ILLUMINACLIP:adapters.fasta:2:7:7
файл: SRR4240385_nonadapt.fastq
Комментарий: ILLUMINACLIP:adapters.fasta:2:7:7 - вырезает адаптеры, со
значениями:
2 - отдельные несовпадения, 7 - порог для палиндромной шпильки, 7 - порог
для простой шпильки
В результате работы программы было удалено очень малое количество ридов:
Input Reads: 14803535;
Surviving: 14797878 (99,96%)
Dropped: 5657 (0,04%).
Размер файла изменился с 1588 Mb до 1586 Мb.
После этого с концов ридов были удалены нуклеотиды с низким качеством, а
также риды длиной менее 30 нуклеотидов
команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33
SRR4240385_nonadapt.fastq SRR4240385_out.fastq TRAILING:20 MINLEN:30
Полученный файл: SRR4240385_out.fastq
Комментарий: MINLEN:30 - удаляет прочтения короче 30; TRAILING:20 - удаляют
нуклеотиды ниже качества равного 20 с конца прочтения.
В результате работы программы было удалено значительное (огромное!)
количество ридов (что еще раз заставляет усомниться в пригодности данных):
Input Reads: 14797878;
Surviving: 4286467 (28,97%)
Dropped: 10511411 (71,03%).
Размер файла изменился с 1586 Мb до 429 Mb.
Далее программой FastQC был проведен анализ качества чтений после чистки
команда: fastqc SRR4240385_out.fastq
В результате работы программы был получен архивы (.zip) и отчет о
результатах работы в виде html страницы [
SRR4240385_out.fastq.html
], после чего было проведено сравнение анализов качества ридов после чистки
и изначальных.
Basic statistics
до чистки
после чистки
Качество п.н. в ридах
до чистки
после чистки
Таким образом, после чистки из 14803535 ридов осталось 4286467 (28,95%),
т.е. удалено было 10517068 ридов, что, составляет целых 71,05% от исходного
числа. При этом качество п.н. повысилось, особенно на концевых нуклеотидах,
но нельзя сказать, что изменения существенные, качество по-прежнему
остается непригодным, что несложно заметить из графика.
Использование пакета velvet
Сначала были подготовлены k-меры. Подготовка k-меров была произведена с
помощью программы velveth. Она предназначена для создания набора данных,
которые далее могут обрабатываться программой velvetg.
Velveth принимает на вход несколько последовательностей, строит хэш-таблицу
и создает в отдельной директории два файла - Sequences и Roadmaps,
необходимые для работы velvetg.
команда: velveth velveth 29 -fastq -short SRR4240385_out.fastq
Комментарии: 29 - (hash length) - длина хэшируемых слов в парах оснований;
-short - тип чтений (короткие или длинные, парные или непарные и т.д.);
-fastq - формат чтений.
В нашем случае было необходимо подготовить k-меры длины 29 для коротких
непарных чтений (-short) из файла в формате (-fastq). Выходные файлы
записывались в папку velveth.
Cборка на основе k-меров была произведена программой velvetg с
использованием данных, полученных на предыдущем этапе. Velvetg строит граф
де Брёйна - ориентированный n-мерный граф из m символов, отражающий
пересечения между последовательностями символов. Он имеет m^n вершин,
состоящих из всех возможных последовательностей длины n из данных символов.
Один и тот же символ может встречаться в последовательности несколько раз.
Запуск программы без дополнительных параметров позволят получить fasta-файл
с контигами и статистические данные в указанной директории.
команда: velvetg velveth
полученные файлы:
contigs.fa (содержит последовательности контигов)
stats.txt
(содержащий статистику)
результат
В построенном программой графе оказалось 764 вершины. Информация по каждой
из них отражена в файле stats.txt. Стоит отметить, что количество вершин не
обязательно соответствует количеству контигов, так как "нормальными"
являются только те контиги, длина которых не менее 29. Именно они
прописываются в файле contigs.fa.
N50 составляет 70 п.н. (т.е. ридом с такой длиной и всеми ридами с большей
длиной можно покрыть более половины генома).
В приведенной таблице описаны 3 самых длинных контига:
ID контига
|
длина
|
покрытие
|
43
|
218
|
6.848624
|
105
|
202
|
6.861386
|
214
|
154
|
8.876623
|
Среди собранных контигов было выбрано 5 контигов с аномальным покрытием (в
5 раз > «среднего»). В следующей таблице приведено их описание:
ID контига
|
длина
|
покрытие
|
1
|
1
|
566814.000000
|
344
|
1
|
4725.000000
|
719
|
1
|
2049.000000
|
672
|
1
|
1664.000000
|
483
|
1
|
1143.000000
|
529
|
2
|
1135.000000
|
В принципе, такое большое покрытие неудивительно: длина "контигов" всего 1
k-мер. Не могу однозначно сказать, возможно ли избежать сборки таких
контигов изначально.
Анализ
С помощью алгоритма megablast было проведено сравнение каждого из трех
самых длинных контигов с хромосомой Buchnera aphidicola ( CP009253).
Однако, сравнение не привело к положительному результату: никаких
существенных находок обнаружено не было.
Вероятнее всего (наверняка) причиной этому послужило качество ридов.