Torosyan, pr14

Сборка de novo.

Задание 1. Подготовка чтений программой trimmomatic

В таблице 1 указаны использоанные для этого практикума команды с их предназначением.

Таблица 1.
Список использованных команд
Команда	Для чего была использована
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240357.fastq SRR4240357_wadapters.fastq ILLUMINACLIP:adapters.fasta:2:7:7	Удаление остатков адаптеров, возможно присутствующих в прочтение. Файл adapters.fasta содержит все адаптеры из файлов директории adapters
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240357_wadapters.fastq reads.fastq TRAILING:20 MINLEN:32	Были удалены буквы с концов. Удалялись буквы, качество которых ниже 20, и риды, которые после такого удаления букв стали короче 32 символов.
velveth velveth31 31 -fastq -short reads.fastq	Команда подготавливает k-меры длины k=31, опция -short, так как в данном случае чтения не парные и короткие. velveth31 - директория, в которой оказались получившиеся файлы.
velvetg velveth31	Собирает из подготовленных предыдущей командой последовательностей контиги.
fastqc SRR4240357.fastq; fastqc SRR4240357_wadapters.fastq; fastqc reads.fastq	Анализ качества чтения, дает информацию о количестве ридов и их качестве.

После каждой команды Trimmomatic командой fastqc анализировались полученные риды. Все данные можно увидеть в таблице 2. Получается, что после первого шага удалилось 1,99% нуклеотидов, которые являлись остатками адаптеров. А после второго шага осталось 88,19% от последовательностей, получившихся на предыдущем этапе. То есть удалилось относительно мало чтений. И по изображениям, демонстрирующим качество чтения, и по цифрам видно, что очистка чтений была необходима.

Таблица 2.
Изменения в файле с ридами при их подготовке.
Название файла	Количество чтений	Длина чтений	Размер файла
SRR4240357.fastq (исходный)	8098979	39	863 M
SRR4240357_wadapters.fastq (без адаптеров)	7937705	1-39	845 М
reads.fastq (окончательный)	7000037	32-39	725 M

Задание 3. Сборка k-меров и контигов.

После выполнения программы velvetg в файл Log записались следующие данные: получившийся граф содержит 375 узлов, N50=18988, а максимальная длина контига - 68573, тогда как общая длина равна 658247. Информация об остальных контигах была взята из файла stats.txt и проанализирована программой Excel. Все полученные данные можно увидеть в таблице 3.

Таблица 3.
Информация о длине и покрытии контигов.
ID контига	Длина контига	Покрытие
5	68573	29.759818
17	46727	28.502408
12	38871	27.715366
	Контиги с аномальным покрытием
215	1	733,000000
100	191	5.230366

Задание 3. Анализ самых длинных контигов megablast.

Были выравнены последовательности трех самых длинных контигов, полученных из файла contigs.fa с хромосомой Buchnera aphidicola. Описание каждого из полученного выравнивания можно увидеть в таблице 4. Также были проанализированы карты локального сходства. На картах локального сходства по оси абсцисс отложен контиг, по оси ординат - референсная хромомсома.

Таблица 4.
Анализ самых длинных контигов программой megablast.
ID контига	Длина	Координаты в геноме	Max score	Query cover	Identities	Цепи
5	68573	451729-515859	4050	68%	77.03%	+/-
17	46727	389348-429483	3589	59%	74.06%	+/+
12	38871	208017-236859	3195	59%	80.87%	+/+

Таблица 5.
Анализ карт локального сходства.
	Выравнились 11 частей контига и видно, что контиг лег на обратную цепь референса. Средний процент идентичности выравненных участков составляет 77.03%. Процент гэпов колеблется от 2 до 4% в зависимости от выравнивания. Невыравненные участки контига довольно-таки длинные, о чем также говорит процент покрытия контига (68%), но стоит отметить, что из трех контигов он самый высокий.
	Контиг 17 и хромосома имеют одинаковое направление цепей. Найдено 7 отдельных участков контига, выравненных с хромосомой, что хорошо видно даже по карте локального сходства. Для некоторых из таких участков процент идентичности выше 80%, но для самого длинного - 74%.
	Для третьего по длине контига построено 8 выравниваний, причем цепи референсной последовательности и контига сонаправлены. Гэпов в каждом выравнивании 2-3%, а процент идентичности для самого длинного выравнивания 76%. Доля контига, учавствующего в выравнивании, - 41%.