Практикум 15.
Был скачен архив с чтениями при помощи команды:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/006/SRR4240356/SRR4240356.fastq.gz
Возможные остатки адептеров были удалены командой:
java -jar /usr/share/java/trimmomatic.jar SE -threads 10 -phred33 SRR4240356.fastq.gz SRR4240356_clean.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7
Остатками адаптеров оказались 2,04% последовательностей чтений.
C правых концов чтений были удалены нуклеотиды с качеством ниже 20 при помощи команды:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356_clean.fastq.gz SRR4240356_final.fastq.gz TRAILING:20 MINLEN:32
Было удалено 305092 чтений (4,15% от общего количества)
Размер файла до очистки составилял 167M, а после 155M
k-меры длиной k=31 были созданы и помещены в директорию velveth при помощи команды:
velveth velveth 31 -fastq -short SRR4240356_final.fastq.gz
Команда для запуска velvetg:
velvetg velveth
Для данной сборки параметр N50 = 65554. В Таблице 1 приведены длины 3-x самых больших контигов и их покрытие:
ID Длина Покрытие 8 111962 38.660197 6 107488 34.174029 10 80939 37.524173
Были обнаружены контиги с аномально большим покрытием(421.761905 при длине 21 нуклеотид) или аномально малым покрытием(1.000000 при длинне в 1 нуклеотид).
В результате выравнивания алгоритмом megablast были получены карты локального сходства трёх самых длинных контигов на геном Buchnera aphidicola.
Контиг с ID 8:
Картируется на следующих участках: 523105 - 556774 (79% процентов идентичности и 3% гэпов).
Контиг с ID 6:
Картируется на следующих участках:
266073 - 275551 (79% процентов идентичности и 2% гэпов);
236918 - 247596 (75% процентов идентичности и 3% гэпов);
295935 - 303252 (77% процентов идентичности и 2% гэпов);
275566 - 283706 (76% процентов идентичности и 5% гэпов);
220869 - 223720 (82% процентов идентичности и 0% гэпов);
307878 - 312179 (77% процентов идентичности и 2% гэпов);
224057 - 228137 (77% процентов идентичности и 3% гэпов);
232358 - 236859 (76% процентов идентичности и 2% гэпов);
228944 - 232057 (76% процентов идентичности и 2% гэпов);
260224 - 263784 (77% процентов идентичности и 3% гэпов);
288181 - 291560 (78% процентов идентичности и 2% гэпов);
248967 - 252161 (78% процентов идентичности и 2% гэпов);
312679 - 315982 (77% процентов идентичности и 2% гэпов);
318826 - 323043 (74% процентов идентичности и 4% гэпов);
253244 - 257546 (73% процентов идентичности и 4% гэпов);
294227 - 295755 (81% процентов идентичности и 0% гэпов);
285200 - 286535 (76% процентов идентичности и 2% гэпов);
283963 - 285070 (76% процентов идентичности и 4% гэпов).
Контиг с ID 10:
Картируется на следующих участках:
127825 - 140555 (75% процентов идентичности и 4% гэпов);
153752 - 161738 (78% процентов идентичности и 3% гэпов);
144368 - 151796 (78% процентов идентичности и 3% гэпов);
187938 - 192665 (80% процентов идентичности и 2% гэпов);
161898 - 166752 (80% процентов идентичности и 2% гэпов);
166750 - 173180 (76% процентов идентичности и 2% гэпов);
181712 - 185328 (76% процентов идентичности и 3% гэпов);
194042 - 195400 (82% процентов идентичности и 0% гэпов);
126623 - 127815 (84% процентов идентичности и 0% гэпов);
179654 - 180620 (85% процентов идентичности и 0% гэпов);
192777 - 193984 (81% процентов идентичности и 0% гэпов).