Практикум 14.Сборка генома de novo.

Часть 1.Подготовка чтений программой trimmomatic.


Cначала все адаптеры были объеденены в одном файле adapters.fasta
Далее были удалены возможные остатки адаптеров
Команда:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240387.fastq SRR4240387__adadapt.fastq ILLUMINACLIP:adapters.fasta:2:7:7 В итоге было удалено 3073 чтения, и осталось 15029737
Reads: 15032810 Surviving: 15029737 (99,98%) Dropped: 3073 (0,02%)
Далее была проведена чистка по качеству и длине(не менее 30)
Команда:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240387__adadapt.fastq SRR4240387__clean.fastq TRAILING:20 MINLEN:30 В итоге около 70% было удалено, и всего осталось только 4437417 чтения.
Reads: 15029737 Surviving: 4437417 (29,52%) Dropped: 10592320 (70,48%)
До чистки размер файла составлял 1613 Мбайта, после чистки всего 444 Мбайта

Часть 2. Velveth


Команда:
velveth k_mer 29 -short -fastq SRR4240387__clean.fastq
k_mer - папка в которую сохранялись k_меры длины 29
29 - длина k_мера
-short - короткие и непарные чтения
-fastq - тип файла
SRR4240387__clean.fastq - сам файл

Часть 3. Velvethg


Команда:
velvetg k_mer
В итоге были построены графе Де Брейна. А также получены файлы, содержащие информацию и контигах и статистика.
N50=1367

ID Длина Покрытие
78 7399 33.421679
26 6230 25.778652
21 5261 23.969397






Также были контиги с аномально большим покрытием:
ID:408 Покрытие-338.08, длина- 25
ID:19 Покрытие-313.36, длина-41
ID:389 Покрытие-344.96, длина-29


И с аномально маленьким покрытием:
ID:850 Покрытие-1,58 длина- 29
ID:1031 Покрытие-1,27, длина- 11
ID:931 Покрытие-2,67, длина- 24

Часть 4. Анализ.

Три самых длинных контига были выровнены при помощт BLASTN (Align two or more sequences).
ID Query cover E-value Identity Координаты Гэпы Однонуклеотидные различия
78 99% 0.0 84% 35162-42578 66 1219
26 99% 0.0 80% 536550-542787 111 1248
21 51% 0.0 76% 587054-584329 108 677





Комментарии:

Первые два выравнивания получились очень даже хорошими. Первый контиг (ID:78) лег примерно в середину генома, второй контиг (ID:26) лег ближе к концу генома. Третий контиг лег не полностью, на геном легла только его половина, по координатам он лег ближе к концу.