Сборка генома de novo
В данном практикуме необходимо de novo собрать геном бактерии Buchnera aphidicola, код доступа - SRR4240359.
Подготовка чтений
1. Скачивание архива с одиночными чтениями:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq.gz2. Удаление остатков адаптеров с помощью пограммы trimmomatic (для удобства все адаптеры объединены в файл adapters.fasta):
java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 15 SRR4240359.fastq.gz SRR4240359_trim_adapt.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7Остатками адаптеров оказались 55872 (0.41%) чтений. Размер файла до очистки - 445 Mb, после - 443 Mb.
3. Удаление концов чтений
Были удалены нуклеотиды с качеством чтений ниже 20, длина оставшихся чтений - не меньше 32 нуклеотидов.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 15 SRR4240359_trim_adapt.fastq.gz SRR4240359_trim_end.fastq.gz TRAILING:20 MINLEN:32Было удалено 1317986 (9.76%) чтений. Размер файла после удаления чтений - 385 Mb.
Сборка на основе k-меров
1. Подготовка k-меров длины 31 с помощью velveth:
velveth velvet/ 31 -fastq.gz -short SRR4240359_trim_end.fastq.gz
2. Сборка генома программой velvetg:
velvetg velvet/N50 данной сборки равен 70607. Информация о длине и покрытии контигов была проанализирована с помощью Excel. Результаты представлены в таблице 1.
ID контига | Длина (bp) | Покрытие |
11 | 125674 | 44.550949 |
1 | 108447 | 42.009184 |
4 | 71403 | 39.408694 |
Также в сборке присутствуют контиги с маленьким покрытием, например контиг 231 с покрытием 2.19, и контиг 285 с покрытием 2.44.
Анализ контигов
Контиг 1Контиг картировался на хромосому 15 фрагментами. В целом выравнивания неплохие, от 75 процентов идентичности, гэпов от 0-4%, но имеется выравнивание с 7% гэпов. Также в контиге имеются участки, которые не выровнялись на хромосому (1 - 3756, 4652 - 7333, 14500 - 32468, 79108 - 87826). Характеристики выравниваний приведены в таблице 2.
Контиг 11
Контиг картировался на хромосому 25 фрагментами. Выравнивания от 74 процентов идентичности, гэпов 0-4%. Можно заметить, что контиг содержит точку начала хромосомы, а также картируется в обратном направлении. В контиге имеются участки, которые не выровнялись на хромосому (12259-16970, 30582 - 35876, 113849 - 120355). Характеристики выравниваний приведены в таблице 3.
Контиг 14
Контиг картировался на хромосому 14 фрагментами, в обратном направлении. Выравнивания от 73 процентов идентичности, гэпов 1-4%. В целом этот контиг выровнялся немного лучше предыдущих, участков, которые не выровнялись на хромосому меньше (6967 - 9517, 13088 - 15866, 57887 - 61463). Характеристики выравниваний представлены в таблице 4.