Архив с чтениями был скачан с помощью команды:
wget https://www.ebi.ac.uk/ena/browser/view/SRR4240358
Подготовка чтений программой trimmomatic
Команды:
Объединение файлов с информацией об адаптерах:
cat *.fa > adapters.fasta
Удаление адаптеров:
java -jar /usr/share/java/trimmomatic.jar SE SRR4240358.fastq.gz -threads 5 no_adapter.fastq.gz -trimlog trim_adapter.log ILLUMINACLIP:adapters.fasta:2:7:7
Удаление нуклеотидов с низким качеством:
java -jar /usr/share/java/trimmomatic.jar SE no_adapter.fastq.gz -threads 5 trimmed.fastq.gz -trimlog trim_poorq.log TRAILING:20 MINLEN:32
Результаты
Размеры:
469 MB - до удаления адаптеров
462 MB - после удаления адаптеров
340 MB - после удаления нуклеотидов с низким качеством
Удаление адаптеров: 10543839 Surviving: 10368884 (98.34%) Dropped: 174955 (1.66%)
Удаление нуклеотидов с низким качеством: 10368884 Surviving: 8016437 (77.31%) Dropped: 2352447 (22.69%)
Адаптеры занимали небольшую часть чтений (менее 2%), однако чистка чтений привела к удалению более чем 22% нуклеотидов.
Работа с программой velveth
Создание папки kmers_velvet с k-мерами длины 31:
velveth kmers_velvet 31 -fastq.gz trimmed.fastq.gz -short
Сборка по созданным k-мерам:
velvetg kmers_velvet &> velvetg.log
Длина N50 - 8600 bp. В таблице ниже приведены самые длинные контиги.
Далее был запущен BLAST с каждым из вышеописанных контигов и геномом бактерии
Buchnera aphidicola.
Контиг 56
Участок хромосомы: 496111-500325, 500370-508806, 510438-514772
Участок контига: 948-5226, 15478-19851, 5342-13787
Identities: 3256/4324(75%), 3577/4393(81%), 6516/8617(76%)
Gaps: 154/4324(3%), 77/4393(1%), 351/8617(4%)
Контиг 34
Участок хромосомы: 17962-20171, 23067-26764, 14727-17919, 8599-11103, 20358-22183, 13994 to 14465
Участок контига: 9387-11586, 15025-18744, 6139-9309, 1-2495, 12176-14000, 5505-5979
Identities: 1896/2220(85%), 2935/3781(78%), 2453/3228(76%), 1982/2530(78%), 1508/1850(82%), 392/478(82%)
Gaps: 30/2220(1%), 144/3781(3%), 92/3228(2%), 60/2530(2%), 49/1850(2%), 9/478(1%)
Контиг 40
Участок хромосомы: 467412-474242, 462496-467421
Участок контига: 3-6889, 6916-11860
Identities: 5344/6962(77%), 3864/5019(77%)
Gaps: 206/6962(2%), 164/5019(3%)