Практикум 15. Сборка de novo.

Задание 1. Подготовка чтений программой trimmomatic

Я работал с проектом SRR4240356.

Для использования программы trimmomatic ILLUMINACLIP адаптеры из директории /mnt/scratch/NGS/adapters были собраны в один fasta файл. Для этого я применил команду cat:

cat NexteraPE-PE.fa TruSeq2-PE.fa TruSeq2-SE.fa TruSeq3-PE-2.fa TruSeq3-PE.fa TruSeq3-SE.fa > ../ren-win/pr15/adapters.fasta

Для удаления адаптеров я использовал следующую команду:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356.fastq.gz SRR4240356_clean.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7

Остатками адаптеров оказалось 2,04% чтений.

Далее были удалены с правых концов чтений нуклеотиды с качеством прочтения ниже 20 и чтения длиной менее 32 нуклеотидов. Для этого использовалась команда:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356_clean.fastq.gz SRR4240356_fin.fastq.gz TRAILING:20 MINLEN:32

После этого шага количество прочтений из мсходного (до предыдущего шага) в 7511529 уменьшилось до 7053346 - 93,90%, размер файла уменьшился со 166,19 Мб до 154,51 Мб.

Задание 2. Сборка.

Сборка была осуществлена следующей последовательностью команд:

velveth step1 31 -short -fastq SRR4240356_fin.fastq.gz

velvetg step1

N50 = 65554

Наиболее длинные контиги:

1. ID:8, длина: 111962, покрытие: 38,660197

2. ID:6, длина: 107488, покрытие: 34,174029

3. ID:10, длина: 80939, покрытие: 37,524173

Кроме того, контиг с ID:64 имеет аномально большое покрытие в 266951,0, контиги с покрытием 1 также есть, например, ID:43, ID:285, ID:286.

Задание 3. Анализ.

Контиг 8

Участки хромосомы: 528794-550219; 550361-555905; 467412-474667; 500370-508806; 510438-516539; 523105-528679; 462496-467421; 481997-488106; 474844-480660; 517766-521500; 496111-500325; 451729-454069; 493487-494864; 480874-481545; 495033-495148

Участки контига: 81925-103395; 103601-109238; 19595-26906; 52961-61406; 63097-69275; 76268-81855; 14624-19565; 34243-40300; 27009-32884; 70536-74265; 48567-52845; 2390-4733; 45773-47149; 33090-33769; 47283-47401

Identities: 17695/21721(81%); 4575/5658(81%); 5691/7388(77%); 6516/8617(76%); 4897/6234(79%); 4369/5685(77%); 3861/5015(77%); 4621/6238(74%); 4431/5974(74%); 2920/3782(77%); 3256/4324(75%); 1827/2370(77%); 1109/1384(80%); 564/686(82%); 108/120(90%)

Gaps: 545/21721(2%); 133/5658(2%); 208/7388(2%); 351/8617(4%); 187/6234(2%); 207/5685(3%); 162/5015(3%); 308/6238(4%); 255/5974(4%); 99/3782(2%); 154/4324(3%); 55/2370(2%); 13/1384(0%); 20/686(2%); 5/120(4%)

Координаты контига - 451729-555905. Контиг кусочно выровнялся на исходный геном.

Контиг 6

Участки хромосомы: 266073-275551; 236918-247596; 295935-303252; 275566-283706; 220869-223720; 307878-312179; 224057-228137; 232358-236859; 228944-232057; 260224-263784; 288181-291560; 248967-252161; 318826-323043; 253244-257546; 294227-295755; 285200-286535; 283963-285070

Участки контига: 45989-55468; 16292-26990; 77556-84909; 55527-63756; 146-2996; 91741-96052; 3385-7496; 11665-16194; 8396-11516; 39869-43440; 68934-72299; 28467-31669; 96698-100006; 103039-107252; 32780-37082; 75721-77247; 65810-67144; 64004-65113

Identities: 7609/9661(79%); 8182/10884(75%); 5696/7429(77%); 6376/8396(76%); 2359/2861(82%); 3358/4367(77%); 3216/4178(77%); 3466/4581(76%); 2496/3166(79%); 2794/3622(77%); 2653/3422(78%); 2527/3246(78%); 2581/3351(77%); 3179/4303(74%); 3229/4399(73%); 1242/1535(81%); 1027/1349(76%); 864/1132(76%)

Gaps: 363/9661(3%); 390/10884(3%); 186/7429(2%); 421/8396(5%); 19/2861(0%); 120/4367(2%); 163/4178(3%); 130/4581(2%); 97/3166(3%); 111/3622(3%); 98/3422(2%); 94/3246(2%); 89/3351(2%); 174/4303(4%); 192/4399(4%); 14/1535(0%); 27/1349(2%); 46/1132(4%)

Координаты контига: 220869-323043. Контиг кусочно выровнялся на исходный геном.

Контиг 10

Участки хромосомы: 127825-140555; 153752-161738; 144368-151796; 187938-192665; 161898-166752; 166750-173180; 181712-185328; 194042-195400; 126623-127815; 179654-180620; 192777-193984

Участки контига: 55035-67775; 33933-42017; 43997-51396; 2708-7482; 28867-33727; 22393-28836; 10021-13675; 37-1400; 67840-69033; 14869-15834; 1427-2632

Identities: 9741/13008(75%); 6346/8169(78%); 5863/7536(78%); 3843/4801(80%); 3910/4912(80%); 4965/6517(76%); 2806/3692(76%); 1121/1368(82%); 1004/1199(84%); 822/967(85%); 983/1209(81%)

Gaps: 544/13008(4%); 266/8169(3%); 243/7536(3%); 99/4801(2%); 108/4912(2%); 159/6517(2%); 112/3692(3%); 13/1368(0%); 11/1199(0%); 1/967(0%); 4/1209(0%)

Координаты контига: 126623-195400. Контиг кусочно выровнялся на исходный геном. Контиг инвертирован.