De novo

Сборка генома de novo

1. Подготовка чтений

С помощью программы trimmomatic были удалены воможные участки адаптеров. Для начала нужно было распаковать загруженный файл. Команда: gunzip SRR4240388.fastq.gz. Чтения были подготовлены, команда: fastqc SRR4240388.fastq. Далее была произведена чистка. Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240388.fastq new.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30. И проявлена: fastqc new.fastq. Далее представлены результаты.

_ Изображение до чистки

_ Изображение после чистки

_ Число чтений до чистки - 10833163, после чистки - 7336973

_ Длина чтений до чистки - 39, после чистки - 30-39

_ В итоге после чистки длиной менее 30 пар оснований было удалено 3496190 чтений

2. Создание k-меров и построение генома

Были сипользованы команды:

1_ velveth kmers 29 -fastq -short new.fastq

2_ velvetg


После завершения построения генома программа velvetg выдала N50 = 16590

Максимально длинные контиги: ID 34, длина - 16590, покрытие - 42,65; ID 41, длина - 16373, покрытие - 49,33; ID 26, длина - 14691, 55,27.

Аномальные контиги: контиг с ID 724 имеет самое высокое покрытие 1141,94 при длине 50; контиг с ID 781 имеет самое низкое покрытие 1,41 при длине 29.


3. Анализ megablast

ID 34

Характеристика всего выравнивания

Total score = 5762, Query cover = 67%, E-value = 0, Ident = 76%

Контиг соответствует учатску хромосомы с координатами [324944;339010]

Всего было получено 4 выравнивания со следующими координатами:

[324944;326950]

[327227;330003]

[330333;331006]

[333222;339010]

Все эти выравнивания имеют направленность (+/-) и Expect 0 (только предпоследний - 1e-170)

Процент гэпо варируется от 0 до 3, Identities - от 75 до 83

В целом можно сказать, что контиг практически полностью лёг на геном в обратном направлении, хотя в некоторых участках есть отличия


ID 41

Характеристика всего выравнивания

Total score = 7344, Query cover = 79%,E-value = 0 ,Ident = 78%

Контиг соответствует учатску хромосомы с координатами [2004;627104]

Всего было получено 2 выравнивания со следующими координатами:

[2004;9041]

[621055;627104]

Все эти выравнивания имеют направленность (+/-) и Expect 0

Пороцент гэпов варируется от 2 до 3, Identities - от 76 до 78

В целом можно сказать, что контиг имеет высокое сходство с участками, только эти участки сильно удалены друг от друга


ID 26

Характеристика всего выравнивания

Total score = 8301, Query cover = 85%,E-value = 0,Ident = 78%

Контиг соответствует учатску хромосомы с координатами [147305;161738]

Всего было получено 2 выравнивания со следующими координатами:

[147305;151796]

[153752;161738]

Все эти выравнивания имеют направленность (+/-) и Expect 0

Процент гэпов варируется от 1 до 3, Identities - от 78 до 81

Контиг впринципе почти полность лёг на геном в обратном направлении, хотя и есть одна небольшая "брешь"


© Иззи Антон,2018