Сборка de novo.
Задание 1. Подготовка чтений программой trimmomatic
В таблице 1 указаны использоанные для этого практикума команды с их предназначением.
Команда | Для чего была использована |
---|---|
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240357.fastq SRR4240357_wadapters.fastq ILLUMINACLIP:adapters.fasta:2:7:7 | Удаление остатков адаптеров, возможно присутствующих в прочтение. Файл adapters.fasta содержит все адаптеры из файлов директории adapters |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240357_wadapters.fastq reads.fastq TRAILING:20 MINLEN:32 | Были удалены буквы с концов. Удалялись буквы, качество которых ниже 20, и риды, которые после такого удаления букв стали короче 32 символов. |
velveth velveth31 31 -fastq -short reads.fastq | Команда подготавливает k-меры длины k=31, опция -short, так как в данном случае чтения не парные и короткие. velveth31 - директория, в которой оказались получившиеся файлы. |
velvetg velveth31 | Собирает из подготовленных предыдущей командой последовательностей контиги. |
fastqc SRR4240357.fastq; fastqc SRR4240357_wadapters.fastq; fastqc reads.fastq | Анализ качества чтения, дает информацию о количестве ридов и их качестве. |
После каждой команды Trimmomatic командой fastqc анализировались полученные риды. Все данные можно увидеть в таблице 2. Получается, что после первого шага удалилось 1,99% нуклеотидов, которые являлись остатками адаптеров. А после второго шага осталось 88,19% от последовательностей, получившихся на предыдущем этапе. То есть удалилось относительно мало чтений. И по изображениям, демонстрирующим качество чтения, и по цифрам видно, что очистка чтений была необходима.
Название файла | Количество чтений | Длина чтений | Размер файла |
---|---|---|---|
SRR4240357.fastq (исходный) | 8098979 | 39 | 863 M |
SRR4240357_wadapters.fastq (без адаптеров) | 7937705 | 1-39 | 845 М |
reads.fastq (окончательный) | 7000037 | 32-39 | 725 M |
Задание 3. Сборка k-меров и контигов.
После выполнения программы velvetg в файл Log записались следующие данные: получившийся граф содержит 375 узлов, N50=18988, а максимальная длина контига - 68573, тогда как общая длина равна 658247. Информация об остальных контигах была взята из файла stats.txt и проанализирована программой Excel. Все полученные данные можно увидеть в таблице 3.
ID контига | Длина контига | Покрытие |
---|---|---|
5 | 68573 | 29.759818 |
17 | 46727 | 28.502408 |
12 | 38871 | 27.715366 |
Контиги с аномальным покрытием | ||
215 | 1 | 733,000000 |
100 | 191 | 5.230366 |
Задание 3. Анализ самых длинных контигов megablast.
Были выравнены последовательности трех самых длинных контигов, полученных из файла contigs.fa с хромосомой Buchnera aphidicola. Описание каждого из полученного выравнивания можно увидеть в таблице 4. Также были проанализированы карты локального сходства. На картах локального сходства по оси абсцисс отложен контиг, по оси ординат - референсная хромомсома.
ID контига | Длина | Координаты в геноме | Max score | Query cover | Identities | Цепи |
---|---|---|---|---|---|---|
5 | 68573 | 451729-515859 | 4050 | 68% | 77.03% | +/- |
17 | 46727 | 389348-429483 | 3589 | 59% | 74.06% | +/+ |
12 | 38871 | 208017-236859 | 3195 | 59% | 80.87% | +/+ |
![]() |
Выравнились 11 частей контига и видно, что контиг лег на обратную цепь референса. Средний процент идентичности выравненных участков составляет 77.03%. Процент гэпов колеблется от 2 до 4% в зависимости от выравнивания. Невыравненные участки контига довольно-таки длинные, о чем также говорит процент покрытия контига (68%), но стоит отметить, что из трех контигов он самый высокий. |
![]() |
Контиг 17 и хромосома имеют одинаковое направление цепей. Найдено 7 отдельных участков контига, выравненных с хромосомой, что хорошо видно даже по карте локального сходства. Для некоторых из таких участков процент идентичности выше 80%, но для самого длинного - 74%. |
![]() |
Для третьего по длине контига построено 8 выравниваний, причем цепи референсной последовательности и контига сонаправлены. Гэпов в каждом выравнивании 2-3%, а процент идентичности для самого длинного выравнивания 76%. Доля контига, учавствующего в выравнивании, - 41%. |