Для загрузки данного мне файла с чтениями была использована команда:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240379/SRR4240379.fastq.gz
Для объединения файлов с адаптерами была использована команда:
cat /mnt/scratch/NGS/adapters/* > adapters.fasta
Для удаления адаптеров была использована команда:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240379.fastq.gz SRR4240379_mod1.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7
Количество чтений после этой операции уменьшилось с 7400155 до 7269852. Остатками адаптеров оказалось 130303 (1.76%) последовательностей.
Удаление нуклеотидов низкого качества с правых концов и фильтрация по размеру (не меньше 32 нуклеотидов) были осуществлены следующей командой:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240379_mod1.fastq.gz SRR4240379_mod2.fastq.gz TRAILING:20 MINLEN:32
Количество чтений после этой операции уменьшилось с 7269852 до 6974267. Было удалено 295585 (4.07%) чтений. Размер исходного файла был 167M. После удаления адаптеров он стал 165М, а после фильтрации по качеству и размеру - 156М.
Для подготовки 31-меров на основе нашего файла была запущена программа velveth:
velveth Assem 31 -short -fastq.gz SRR4240379_mod2.fastq.gz
Далее для сборки на основе полученных 31-меров была запущена программа velvetg:
velvetg Assem
После работы программы был получен набор контигов с N50=25646 и значениями длин и покрытий (покрытия в скобках) трех самых больших контигов:
49912 (35.907)
49262 (34.772)
33085 (36.259)
Аномально большие покрытия были у 4-х контигов, их значения: 181, 177, 172 и 120. Остальные значения покрытий - двузначные числа. Наименьшие значения покрытий - значения между 2 и 3 у нескольких контигов.
Примечание: поиск наибольших длин проводился с помощью сортировки колонки lngth файла stats.txt, а наибольших/наименьших покрытий путем применения команды grep "^>" к файлу contigs.fa и просмотра полученного файла.
Самый большой контиг длиной 49912 картируется на хромосому в четырех своих участках (выравнивания 4 и 5 соответствуют одному фрагменту гомологии), между которыми есть негомологичные промежутки:
127825-140555 (75% совпадающих оснований, 4% гэпов)
144368-151796 (78% совпадающих оснований, 3% гэпов)
153752-161738 (78% совпадающих оснований, 3% гэпов)
161898-166752 (80% совпадающих оснований, 2% гэпов)
166750-173180 (76% совпадающих оснований, 2% гэпов)
Следующий контиг длиной 49292 картируется на хромосому в десяти своих участках, между которыми есть негомологичные промежутки разной длины:
480874-481545 (82% совпадающих оснований, 2% гэпов)
481997-488106 (74% совпадающих оснований, 4% гэпов)
493487-494864 (80% совпадающих оснований, 0% (13 штук) гэпов)
495033-495148 (90% совпадающих оснований, 4% гэпов)
496111-500325 (75% совпадающих оснований, 3% гэпов)
500370-508806 (76% совпадающих оснований, 4% гэпов)
510438-516539 (79% совпадающих оснований, 2% гэпов)
517766-521500 (77% совпадающих оснований, 2% гэпов)
523105-528679 (77% совпадающих оснований, 3% гэпов)
528794-529211 (84% совпадающих оснований, 6% гэпов)
Третий контиг длиной 33085 картируется на хромосому в трех своих участках (выравнивания 2 и 3 соответствуют одному фрагменту гомологии), между которыми есть негомологичные промежутки. Стоит отметить большой промежуток негомологии между 1 и 2 гомологичными участками контига:
451729-454069 (77% совпадающих оснований, 2% гэпов)
462496-467421 (77% совпадающих оснований, 3% гэпов)
467412-474667 (77% совпадающих оснований, 2% гэпов)
474844-480660 (74% совпадающих оснований, 4% гэпов)