Сборка de novo.

Задание 1. Подготовка чтений программой trimmomatic

В таблице 1 указаны использоанные для этого практикума команды с их предназначением.

Таблица 1.
Список использованных команд
Команда Для чего была использована
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240357.fastq SRR4240357_wadapters.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Удаление остатков адаптеров, возможно присутствующих в прочтение. Файл adapters.fasta содержит все адаптеры из файлов директории adapters
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240357_wadapters.fastq reads.fastq TRAILING:20 MINLEN:32 Были удалены буквы с концов. Удалялись буквы, качество которых ниже 20, и риды, которые после такого удаления букв стали короче 32 символов.
velveth velveth31 31 -fastq -short reads.fastq Команда подготавливает k-меры длины k=31, опция -short, так как в данном случае чтения не парные и короткие. velveth31 - директория, в которой оказались получившиеся файлы.
velvetg velveth31 Собирает из подготовленных предыдущей командой последовательностей контиги.
fastqc SRR4240357.fastq; fastqc SRR4240357_wadapters.fastq; fastqc reads.fastq Анализ качества чтения, дает информацию о количестве ридов и их качестве.

После каждой команды Trimmomatic командой fastqc анализировались полученные риды. Все данные можно увидеть в таблице 2. Получается, что после первого шага удалилось 1,99% нуклеотидов, которые являлись остатками адаптеров. А после второго шага осталось 88,19% от последовательностей, получившихся на предыдущем этапе. То есть удалилось относительно мало чтений. И по изображениям, демонстрирующим качество чтения, и по цифрам видно, что очистка чтений была необходима.

Таблица 2.
Изменения в файле с ридами при их подготовке.
Название файла Количество чтений Длина чтений Размер файла
SRR4240357.fastq (исходный) 8098979 39 863 M
SRR4240357_wadapters.fastq (без адаптеров) 7937705 1-39 845 М
reads.fastq (окончательный) 7000037 32-39 725 M

reads SRR4240357 SRR_wadapters

Задание 3. Сборка k-меров и контигов.

После выполнения программы velvetg в файл Log записались следующие данные: получившийся граф содержит 375 узлов, N50=18988, а максимальная длина контига - 68573, тогда как общая длина равна 658247. Информация об остальных контигах была взята из файла stats.txt и проанализирована программой Excel. Все полученные данные можно увидеть в таблице 3.

Таблица 3.
Информация о длине и покрытии контигов.
ID контига Длина контига Покрытие
5 68573 29.759818
17 46727 28.502408
12 38871 27.715366
Контиги с аномальным покрытием
215 1 733,000000
100 191 5.230366

Задание 3. Анализ самых длинных контигов megablast.

Были выравнены последовательности трех самых длинных контигов, полученных из файла contigs.fa с хромосомой Buchnera aphidicola. Описание каждого из полученного выравнивания можно увидеть в таблице 4. Также были проанализированы карты локального сходства. На картах локального сходства по оси абсцисс отложен контиг, по оси ординат - референсная хромомсома.

Таблица 4.
Анализ самых длинных контигов программой megablast.
ID контига Длина Координаты в геноме Max score Query cover Identities Цепи
5 68573 451729-515859 4050 68% 77.03% +/-
17 46727 389348-429483 3589 59% 74.06% +/+
12 38871 208017-236859 3195 59% 80.87% +/+

Таблица 5.
Анализ карт локального сходства.
Выравнились 11 частей контига и видно, что контиг лег на обратную цепь референса. Средний процент идентичности выравненных участков составляет 77.03%. Процент гэпов колеблется от 2 до 4% в зависимости от выравнивания. Невыравненные участки контига довольно-таки длинные, о чем также говорит процент покрытия контига (68%), но стоит отметить, что из трех контигов он самый высокий.
Контиг 17 и хромосома имеют одинаковое направление цепей. Найдено 7 отдельных участков контига, выравненных с хромосомой, что хорошо видно даже по карте локального сходства. Для некоторых из таких участков процент идентичности выше 80%, но для самого длинного - 74%.
Для третьего по длине контига построено 8 выравниваний, причем цепи референсной последовательности и контига сонаправлены. Гэпов в каждом выравнивании 2-3%, а процент идентичности для самого длинного выравнивания 76%. Доля контига, учавствующего в выравнивании, - 41%.