Практикум 15

Отчет по практикуму 15

Подготовка чтений

Я анализировал секвенирование Buchnera aphidicola с кодом доступа SRR4240359 в базе ENA. Для анализа я сначала скачал чтения в формате .fastq при помощи команды wget:

wget 'ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq
.gz'

Затем я создал файл в формате fasta, содержащий последовательности адаптеров, которые необходимо вырезать из чтений:

cat /mnt/scratch/NGS/adapters/* > adapters.fasta

Далее я удалил из чтений адаптеры, которые лежат в файле adapters.fasta. При помощи Trimmomatic:

java -jar /usr/share/java/trimmomatic.jar SE -threads 10 -phred33 
-trimlog trim.log SRR4240359.fastq.gz SRR4240359_trimmed_adapt.fastq.gz 
ILLUMINACLIP:adapters.fasta:2:7:7

После работы программы количество чтений сократилось с 13557938 до 13502066. То есть 55872 (0.41%) чтений было удалено.

Далее я удалил с 3'-конца чтений нуклеотиды, которые имели качество меньше 20, оставляя при этом минимальную длину в 32 нуклеотида:

java -jar /usr/share/java/trimmomatic.jar SE -threads 10 -phred33 -trimlog 
trim2.log SRR4240359_trimmed_adapt.fastq.gz SRR4240359_full_trimmed.fastq.gz 
TRAILING:20 MINLEN:32

Из 13502066 чтений осталось 12184080. Было отброшено 1317986 чтений (9.76%).

Исходный файл (SRR4240359.fastq.gz) имел размер 445M, после обрезки адаптеров размер сократился до 443M (SRR4240359_trimmed_adapt.fastq.gz), а после обрезания 3'-конца упал до 385M (SRR4240359_full_trimmed.fastq.gz).

Формирование k-меров и сборка

Я создал папку Assembly_SRR4240359 с k-мерами длиной 31 из обработанных чтений при помощи программы velveth:

velveth Assembly_SRR4240359 31 -short -fastq.gz SRR4240359_full_trimmed.fastq
.gz

Сборка при помощи velvetg:

velvetg Assembly_SRR4240359

N50 = 70607

Длины трёх самых длинных контигов - 125674, 108447 и 71403. Им соответствуют покрытия 44.55, 42.01 и 39.41.

Анализ контигов

Для картирования я использовал megablast с функцией "align two or more sequences" на сайте NCBI с параметром word size = 48 (иначе количество участков картирования превышало 15), остальные параметры были выставлены по умолчанию.

Контиг длины 125674 картировался на геном по 6 участкам: в него входит точка начала секвенирования хромосомы Buchnera aphidicola.

Рис. 1. Карта локального сходства контига длины 125674 с геномом i>Buchnera aphidicola (CP009253).

**Табл. 1.** Картирование контига длины 125674 на геномом *Buchnera aphidicola* (CP009253).

Фрагмент генома	Identities	Gaps
13994 to 14465	393/478(82%)	9/478(1%)
47158 to 55420	6440/8436(76%)	301/8436(3%)
70970 to 73310	1774/2411(74%)	102/2411(4%)
611633 to 613671	1625/2086(78%)	66/2086(3%)
613658 to 620926	5845/7379(79%)	184/7379(2%)
621055 to 627104	4676/6171(76%)	244/6171(3%)

Фрагмент генома	Identities	Gaps
126623 to 127815	1004/1199(84%)	11/1199(0%)
127825 to 140555	9751/13010(75%)	548/13010(4%)
144368 to 151796	5859/7536(78%)	243/7536(3%)
153752 to 161738	6355/8168(78%)	264/8168(3%)
161898 to 166752	3911/4914(80%)	112/4914(2%)
166750 to 173180	4967/6517(76%)	159/6517(2%)
187938 to 192665	3840/4801(80%)	99/4801(2%)
192777 to 193984	985/1209(81%)	4/1209(0%)
194042 to 196061	1640/2070(79%)	78/2070(3%)
198467 to 199381	724/922(79%)	17/922(1%)

Фрагмент генома	Identities	Gaps
202390 to 207661	4183/5329(78%)	137/5329(2%)
209294 to 212243	2302/3007(77%)	104/3007(3%)
215717 to 218384	2145/2713(79%)	72/2713(2%)
219625 to 223720	3342/4130(81%)	61/4130(1%)
224057 to 228137	3218/4178(77%)	163/4178(3%)
228944 to 232057	2499/3165(79%)	95/3165(3%)
232358 to 236859	3468/4583(76%)	134/4583(2%)
248967 to 252161	2523/3245(78%)	92/3245(2%)
253223 to 257546	3245/4421(73%)	195/4421(4%)
260224 to 263784	2788/3617(77%)	101/3617(2%)
266073 to 273028	5664/7060(80%)	197/7060(2%)