Практикум №15

Подготовка чтений программой trimmomatic

Набор чтений с заданным SRR скачал, используя команду
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240361/SRR4240361.fastq.gz
Адаптеры (предварительно создав файл с ними) удалил с помощью команды
TrimmomaticSE -threads 2 -phred33 ./SRR4240361.fastq.gz reads.fastq.gz ILLUMINACLIP:adapt.fa:2:7:7 2>logs
Из файла с логами находим, что исходно было 7272621 чтений, а удалено 34532 (0,47%)
Чтения плохого качества удалены с помощью команды
TrimmomaticSE -threads 2 -phred33 reads.fastq.gz reads2.fastq.gz TRAILING:20 MINLEN:32 2>>logs
На вход дано 7238089 чтений, удалено 403754 (5.58%)
Размер файлов: исходный 193M, с удаленными адаптерами 192M, после удаления чтений с качеством меньше 20 с правых концов и чтений с длиной меньше 32 - 178M.

Подготовка k-меров

Команда:
velveth velv 31 -short -fastq.gz reads2.fastq.gz

Cборка на основе k-меров

Команда:
                    velvetg velv
                    
Количество контигов с N50 - 25683 (выдача stdout). С помощью команды находим длины самых длинных контигов
cut -f2 stats.txt | sort -h | tail -3
ID Длина покрытие
6 49238 26.66
2 45555 26,45
34 43866 23,51
Аномальное покрытие можно посмотреть с помощью команд
                        cut -f6 stats.txt | sort -h
                    
                        cut -f6 stats.txt | sort -h -r
                    
Наибольшие - 500, 561, 865, 212829, маленькие - от 1.

Анализ полученных результатов

Три самых больших контига были картированы на хромосому Buchnera aphidicola (GenBank/EMBL AC — CP009253)

Рис. 1.6 контиг
Полученный результат:
Участок Идентичные нуклеотиды, % Гэпы, %
127825..140555 75 4
153752..161738 78 3
144368..151796 78 3
161898..166752 80 2
166750..173180 76 2
Соответственно, можно сказать о присутствии делеций в контигах.

Рис. 2.2 контиг
Участок Идентичные нуклеотиды, % Гэпы, %
467412..474667 77 2
462496..467421 77 3
442877..445895 80 1
474844..480660 74 4
449411..454069 75 3
481997..485679 77 3
441135..442817 79 1
480874..481545 82 2
440755..440944 89 4
Так как наклон отрицательный, контиг был перевернут, также присутствуют крупные делеции.

Рис. 3.35 контиг
Участок Идентичные нуклеотиды, % Гэпы, %
266073..275551 79 3
275566..283706 76 5
260224..263784 77 2
288181..291560 78 2
253223..257546 73 4
285200..286535 76 2
283963..285070 76 4
Здесь также можно сказать о наличии делеций.