Практикум 14.Сборка генома de novo.
Часть 1.Подготовка чтений программой trimmomatic.
Cначала все адаптеры были объеденены в одном файле adapters.fasta
Далее были удалены возможные остатки адаптеров
Команда:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240387.fastq SRR4240387__adadapt.fastq ILLUMINACLIP:adapters.fasta:2:7:7
В итоге было удалено 3073 чтения, и осталось 15029737
Reads: 15032810 Surviving: 15029737 (99,98%) Dropped: 3073 (0,02%)
Далее была проведена чистка по качеству и длине(не менее 30)
Команда:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240387__adadapt.fastq SRR4240387__clean.fastq TRAILING:20 MINLEN:30
В итоге около 70% было удалено, и всего осталось только 4437417 чтения.
Reads: 15029737 Surviving: 4437417 (29,52%) Dropped: 10592320 (70,48%)
До чистки размер файла составлял 1613 Мбайта, после чистки всего 444 Мбайта
Часть 2. Velveth
Команда:
velveth k_mer 29 -short -fastq SRR4240387__clean.fastq
k_mer - папка в которую сохранялись k_меры длины 29
29 - длина k_мера
-short - короткие и непарные чтения
-fastq - тип файла
SRR4240387__clean.fastq - сам файл
Часть 3. Velvethg
Команда:
velvetg k_mer
В итоге были построены графе Де Брейна. А также получены файлы, содержащие информацию и контигах и статистика.
N50=1367
ID |
Длина |
Покрытие |
78 |
7399 |
33.421679 |
26 |
6230 |
25.778652 |
21 |
5261 |
23.969397 |
Также были контиги с аномально большим покрытием:
ID:408 Покрытие-338.08, длина- 25
ID:19 Покрытие-313.36, длина-41
ID:389 Покрытие-344.96, длина-29
И с аномально маленьким покрытием:
ID:850 Покрытие-1,58 длина- 29
ID:1031 Покрытие-1,27, длина- 11
ID:931 Покрытие-2,67, длина- 24
Часть 4. Анализ.
Три самых длинных контига были выровнены при помощт BLASTN (Align two or more sequences).
ID |
Query cover |
E-value |
Identity |
Координаты |
Гэпы |
Однонуклеотидные различия |
78 |
99% |
0.0 |
84% |
35162-42578 |
66 |
1219 |
26 |
99% |
0.0 |
80% |
536550-542787 |
111 |
1248 |
21 |
51% |
0.0 |
76% |
587054-584329 |
108 |
677 |
Комментарии:
Первые два выравнивания получились очень даже хорошими. Первый контиг (ID:78) лег примерно в середину генома,
второй контиг (ID:26) лег ближе к концу генома. Третий контиг лег не полностью, на геном легла только его половина,
по координатам он лег ближе к концу.