Команда | Действие |
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz | Получение чтений |
cat /mnt/scratch/NGS/adapters/* >> adapters.fasta | Сбор адаптеров в один файл |
java -jar /usr/share/java/trimmomatic.jar SE SRR4240358.fastq.gz trimmed.fastq.gz -trimlog trim.log ILLUMINACLIP:adapters.fasta:2:7:7 | Удалены адаптеры |
java -jar /usr/share/java/trimmomatic.jar SE trimmed.fastq.gz trimmed2.fastq.gz -trimlog trim_2.log TRAILING:20 MINLEN:32 | Удаление с правых концов чтений нуклеотиды с качеством ниже 20 и чтения длиной меньше 32 |
N50 составило 70607.
В результате удаления адаптеров было удалено 0.04% чтений. Посте запуска команды trimmomatic было удалено 18.13% чтений.
Размер файла уменьшился с 521MB до 405MB.
Команда | Действие |
velvetg kmery &> velvetg.log | Получение k-меров |
sort -n -k 2 -r kmery/stats.txt | head | Выделение самых длинных контигов(рис.1) |
sort -n -k 6 -r kmery/stats.txt | head -n 3 | Контиг с аномально большим покрытием(рис.2) |
sort -n -k 6 kmery/stats.txt | head -n 10 | Контиг с аномально малым покрытием(рис.3) |
Рис.1: На даннгом изобрание представленым самые длинные контиги. Соответственно, мы можем сказать, что самые длинные контиги имеют номера 11, с длинной 125674; 1, с длинной 108447; 14, с длинной 71403.
Рис.2: На данном изображении представлены контиги с аномально большим покрытием.
Рис.3: На данном изображении представлены контиги с аномально малым покрытием.
Контиг лежит на участке хромосомы с 33726 до 46466. Общий вес выравнивая составляет 36478(рис 4). Процент покрытия соствляет 10%, процент идентичности 74,96%.(рис.5)Выход. Имеются большие разрывы.
Контиг лежит на участке хромосомы с 50907 до 60472. Общий вес выравнивая составляет 54376(рис 6). Процент покрытия соствляет 14%, процент идентичности 82,85%.(рис.7)Выход. Некоторые непрерывные участки разбиваются на два, так как хромосома кольцевая. Есть несколько вариабельных участков.
Контиг лежит на участке хромосомы с 1 to 6967. Общий вес выравнивая составляет 32459(рис 8).Процент покрытия соствляет 9%, процент идентичности 80,22%.(рис.9)Выход. В геноме присутствует 6 вариабельных участков.