Команды
Команда | Функция |
fastqc D.fastq fastqc D_clean.fastq | Выдает информацию о качестве прочтений |
cat *.* > adapters.fasta | Объединяет адаптеры в один файл |
java -jar /usr/share/java/trimmomatic.jar SE -phred33 D.fastq D_no.fastq ILLUMINACLIP:adapters.fasta:2:7:7 |
Очищает риды от адаптеров |
java -jar /usr/share/java/trimmomatic.jar SE -phred33 D_no.fastq D_clean.fastq SLIDINGWINDOW:5:28 MINLEN:32 |
Убирает части ридов после любого окна длиной 5 со средним качеством ниже 28 и удаляет те прочтения, которые после очистки оказались короче 32 букв. |
Изображения 'Per base sequence quality' |
До чистки | После чистки |
 |  |
Некоторые характеристики чтений
| До чистки | После чистки |
Вес файла | 997 M | 849 M |
Число прочтений | 3869869 | 3532244 |
Длина прочтений | 100 | 32-100 |
%GC | 33 | 34 |
Создание k-меров и построение генома.
Команды
Команда | Функция |
velveth kmers 31 -short -fastq D_clean.fastq | Создаёт 31- меры(Чтения короткие и не парные. |
velvetg kmers | Собирает контиги |
Последняя строчка, выданная программой velvetg на экран:
Final graph has 269125 nodes and n50 of 67, max 635, total 5570176, using 0/3532244 reads
N50 = 67, всего контигов 5570176
Максимальные длины контигов: 635(NODE_27320), 620(NODE_31266), 603(NODE_98836), с покрытиями соответственно: 2.76063, 6.08871, 8,996683.
Максимальное покрытие - 1064.516113(NODE_150715), у контига длиной 31.
Минимальное покрытие - 1.000000, у большого количества контигов с длинами от 31 до 69.
Megablast, наложение контигов на геном.
| NODE_27320 | NODE_31266 | NODE_150715 |
Организм | Arabidopsis thaliana | Arabidopsis thaliana | Arabidopsis thaliana |
Оописание | embryo defective 2410 (emb2410), mRNA | stromal cell-derived factor 2-like protein precursor (SDF2), mRNA | transmembrane protein mRNA |
Покрытие | 59% | 100% | 100% |
% идентичности | 95% | 99% | 100% |