Сборка генома de novo


Задание 0.

Для начала был скаче архив с файлом в формате "*fastq" отсюда.
Дальша архив юыл разспокован с помощью "gunzip", команда (1) приведенна в общей таблице.

Задание 1.

Нужно было ощистить чтения от адаптеров и нуклеотиды с конца с качеством ниже 20 и чтения длины менее 30. Это было сделанно командой (2).
Результаты представлены в таблице 1.
Исходное число чтений Размер исходного файла (Мб) Число оставшихся чтений Размер получившегося файла (Мб) Число отброшенных чтений
10833163 1157 7331225 (67,67%) 780 3501938 (32,33%)
Таблица 1.

Задание 2-3.

Я подготовил к-меры длины 29,максимально возможной при нашей длине чтений, с помощью команды (3). Потом я провел сборку на основе этих к-меров, с помощью команды (4).
Был получен файл со всеми контигами. В таблице 2 представлены итоги работы данной команды.
Число контигов N50 (bp) Общая длина генома (bp) ID 3-х самых длинных контигов
1264 3376 665038 43 ,27, 19
Таблица 2.
Самые длинные контиги с их характеристиками представлены в таблице 3.

ID Длина (bp) Покрытие
43 16373 49.326880
27 14691 55.265264
19 14095 41.445406
Таблица 3
Я получил несколько данных, проанализировав длины всех контигов:

Общее количество контигов: 1264
Среднее значение: 526,14
Медиана: 23
Максимальная длина: 16373
Минимальна длина: 1
Так же были контиги с аномальным покрытием. Два самых больших покрытия пренадлежат контигам с длиной 1. Данные представлены в таблице 4.
ID Длина Покрытие
1119 1,00 595570,0
1229 1,00 4793,0
Таблица 4

Задание 4.

В этом задании необходимо было равнить программой "megablast" 3 самые длинные контиги с хромосомой Buchnera aphidicola (CP009253).
Самые длинные контиги:
1)43
2)27
3)19
Результаты сравнивания представлены в таблицах 5 и 6.
ID Max score Total score Query cover E value Ident Gaps(%)
46 4436 7344 0,79 0.0 0,78 2
27 4747 8301 0,85 0.0 0,78 3
19 4050 6770 0,86 0.0 0,77 2
Таблица 5.
В таблице 5 представленные данные самых "значимых" выравневаний.
ID Координаты Identities Gaps
43 2004 - 9041 78%  2% 
621055 - 627104 76% 3%
27 153752 - 161738  78%  3%
147305 - 151796 81% 1%
19 467412 - 474667 77% 2%
462496 - 467421 77% 3%
Таблица 6.
В таблице 6 представлены все выравнивания с их характеристиками


Использованные команды
Команда Что делает
1 gunzip SRR4240388.fastq.gz разспоковывает архив, получив фаст в формате "*fastq"
2 java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240388.fastq new.fastq ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:30 очищает чтения
3 velveth velveth 29 -short -fastq new.fastq  подготовливает к-меры
4 velvetg velveth произошла сборка на основе к-меров

© Угольков Ярослав, 2017